NVIDIA GTC 2026|Аналіз стратегії придбання Groq на мільярди доларів компанією NVIDIA, як LPX змінює процес висновування

ChainNewsAbmedia

На конференції NVIDIA GTC 2026 найбільшу увагу привернули не лише Vera Rubin NVL72, а й новий режим інференції, сформований у поєднанні з Groq 3 LPX. Інфраструктура штучного інтелекту поступово переходить від домінування єдиного GPU до гетерогенної архітектури з розподілом функцій.

Groq 3 LPX позиціонується як прискорювач, спеціально розроблений для низьколатентної інференції, доповнюючи Rubin GPU. У традиційних архітектурах GPU одночасно обробляють довгі контексти та генерацію по токенах. З швидким зростанням масштабів моделей і довжиною контексту ця інтегрована конструкція починає стикатися з ефективністю.

Тому NVIDIA розбиває процес інференції, щоб Rubin GPU займався високопродуктивною попередньою обробкою і обчисленнями уваги, а LPX відповідає за найчутливіший до швидкості етап декодування, зокрема для передавних нейронних мереж і MoE-експертів. Минулого року NVIDIA витратила близько 20 мільярдів доларів готівкою, щоб придбати Groq саме з цієї причини. Groq розробила архітектуру LPU (Language Processing Unit), спеціально створену для AI-інференції, з дуже низькою затримкою, стабільною відповіддю та високою енергоефективністю, що особливо підходить для реального часу, голосових помічників тощо.

(Найбільша угода в історії NVIDIA: витрати 640 мільярдів доларів на технології Groq і засновника TPU від Google)

Співпраця GPU і LPU розділяє процес інференції

Цей підхід, відомий як «Disaggregated Inference», передбачає, що інференція більше не виконується одним процесором, а здійснюється через кооперацію GPU і LPU.

Під час роботи модель спочатку створює контекст і KV-кеш на GPU, потім у циклі генерації кожного токена GPU обробля увагу, а проміжні результати передаються до LPX для обчислень FFN, і в кінці результати повертаються до GPU для формування виходу. Такий розподіл дозволяє кожному компоненту зосередитися на своїй найкращій функції, значно підвищуючи загальну ефективність.

NVIDIA придбала Groq і застосовує їх LPU у LPX

Ядро LPX — це архітектура LPU. На відміну від GPU, що залежить від динамічного планування і високошвидкісної зовнішньої пам’яті, LPU орієнтована на передбачуваність, з безпосереднім контролем обчислень і потоків даних через компілятор, що зменшує коливання затримки. Архітектура SRAM-першої пам’яті дозволяє зберігати ключові дані безпосередньо на чипі, зменшуючи невизначеність через доступ до пам’яті і роблячи час генерації кожного токена більш стабільним. Це критично важливо для реального часу, інтерактивних AI-додатків, де затримка безпосередньо впливає на користувацький досвід.

LPX — це стандартний корпус із 256 LPU

За апаратною масштабністю, один корпус LPX складається з 256 LPU, що забезпечує високий пропускний здатність внутрішньочипової пам’яті і міжчиповий зв’язок, орієнтований на низьку затримку інференції. У порівнянні з високими FLOPS і великим обсягом пам’яті Rubin GPU, LPX більше схожий на спеціалізований двигун для «останнього кілометру», який перетворює вихід моделі у миттєво доступний результат.

Ця стаття NVIDIA GTC 2026|Аналіз стратегії багатомільярдної купівлі Groq, як LPX змінює процес інференції, вперше з’явилася на Chain News ABMedia.

Переглянути оригінал
Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.
Прокоментувати
0/400
Немає коментарів