На конференції NVIDIA GTC 2026 найбільшу увагу привернули не лише Vera Rubin NVL72, а й новий режим інференції, сформований у поєднанні з Groq 3 LPX. Інфраструктура штучного інтелекту поступово переходить від домінування єдиного GPU до гетерогенної архітектури з розподілом функцій.
Groq 3 LPX позиціонується як прискорювач, спеціально розроблений для низьколатентної інференції, доповнюючи Rubin GPU. У традиційних архітектурах GPU одночасно обробляють довгі контексти та генерацію по токенах. З швидким зростанням масштабів моделей і довжиною контексту ця інтегрована конструкція починає стикатися з ефективністю.
Тому NVIDIA розбиває процес інференції, щоб Rubin GPU займався високопродуктивною попередньою обробкою і обчисленнями уваги, а LPX відповідає за найчутливіший до швидкості етап декодування, зокрема для передавних нейронних мереж і MoE-експертів. Минулого року NVIDIA витратила близько 20 мільярдів доларів готівкою, щоб придбати Groq саме з цієї причини. Groq розробила архітектуру LPU (Language Processing Unit), спеціально створену для AI-інференції, з дуже низькою затримкою, стабільною відповіддю та високою енергоефективністю, що особливо підходить для реального часу, голосових помічників тощо.
(Найбільша угода в історії NVIDIA: витрати 640 мільярдів доларів на технології Groq і засновника TPU від Google)
Співпраця GPU і LPU розділяє процес інференції
Цей підхід, відомий як «Disaggregated Inference», передбачає, що інференція більше не виконується одним процесором, а здійснюється через кооперацію GPU і LPU.
Під час роботи модель спочатку створює контекст і KV-кеш на GPU, потім у циклі генерації кожного токена GPU обробля увагу, а проміжні результати передаються до LPX для обчислень FFN, і в кінці результати повертаються до GPU для формування виходу. Такий розподіл дозволяє кожному компоненту зосередитися на своїй найкращій функції, значно підвищуючи загальну ефективність.
NVIDIA придбала Groq і застосовує їх LPU у LPX
Ядро LPX — це архітектура LPU. На відміну від GPU, що залежить від динамічного планування і високошвидкісної зовнішньої пам’яті, LPU орієнтована на передбачуваність, з безпосереднім контролем обчислень і потоків даних через компілятор, що зменшує коливання затримки. Архітектура SRAM-першої пам’яті дозволяє зберігати ключові дані безпосередньо на чипі, зменшуючи невизначеність через доступ до пам’яті і роблячи час генерації кожного токена більш стабільним. Це критично важливо для реального часу, інтерактивних AI-додатків, де затримка безпосередньо впливає на користувацький досвід.
LPX — це стандартний корпус із 256 LPU
За апаратною масштабністю, один корпус LPX складається з 256 LPU, що забезпечує високий пропускний здатність внутрішньочипової пам’яті і міжчиповий зв’язок, орієнтований на низьку затримку інференції. У порівнянні з високими FLOPS і великим обсягом пам’яті Rubin GPU, LPX більше схожий на спеціалізований двигун для «останнього кілометру», який перетворює вихід моделі у миттєво доступний результат.
Ця стаття NVIDIA GTC 2026|Аналіз стратегії багатомільярдної купівлі Groq, як LPX змінює процес інференції, вперше з’явилася на Chain News ABMedia.