1 червня 2026 року компанія NVIDIA оголосила на конференції GTC у Тайбеї про початок повномасштабного серійного виробництва платформи Vera Rubin. У той же день провайдер AI-хмар CoreWeave першим у галузі завершив хмарне розгортання та валідацію Vera Rubin NVL72, а ціна його акцій на закритті склала $124,82 — зростання на 13,96%, а обсяги торгів були приблизно на 90% вищими за середній показник за три місяці. Синхронний вихід цих двох анонсів не був випадковістю; це знаменує собою черговий еволюційний стрибок у забезпеченні обчислювальних потужностей для ШІ, перехід від лабораторних експериментів до промислової експлуатації.
Розглядати Vera Rubin NVL72 лише як оновлення чипа — це суттєво недооцінювати її значення для галузі. Справжня суть цього поколіннєвого зсуву полягає у відповіді на питання: коли кількість параметрів моделей перевищує трильйон, навантаження на інференс випереджає тренування, а Agentic AI вимагає затримки на рівні мілісекунд, як організувати, розгорнути, споживати та ціноутворювати обчислювальні ресурси? Blackwell запропонував концепцію обчислень на рівні стійки; Vera Rubin доводить її до межі — шість паралельно розроблених чипів, компактна стійка з повністю рідинним охолодженням і зниження вартості інференсу на порядок — це нове визначення меж ефективності AI-інфраструктури.
Від ітерації чипів до інтеграції систем: як Vera Rubin переосмислює конкурентні виміри
Традиційний наратив про поколіннєві оновлення GPU вибудовується за лінійним ланцюгом: удосконалення техпроцесу → більше транзисторів → зростання обчислювальної потужності → зниження енергоспоживання. Vera Rubin NVL72 ламає цю схему. Вона більше не концентрується на одному GPU як основному продукті, а визначає всю стійку як мінімальну одиницю постачання для AI-суперкомп’ютерів.
Кожна стійка Vera Rubin NVL72 містить 72 GPU Rubin і 36 CPU Vera, забезпечуючи 260 ТБ/с пропускної здатності на рівні стійки через шосте покоління NVLink. За заявою NVIDIA, ця пропускна здатність перевищує сумарний світовий інтернет-трафік. Система використовує повністю рідинне охолодження, що скорочує час монтажу з двох годин у традиційних архітектурах до п’яти хвилин. Основна зміна полягає в тому, що ключовий показник конкуренції зміщується від «TFLOPS однієї карти» до «ефективності системи на рівні стійки».
Blackwell NVL72 вже продемонстрував потенціал обчислень на рівні стійки — 1,44 EFLOPS потужності для інференсу, 130 ТБ/с пропускної здатності, часткове рідинне охолодження. Vera Rubin NVL72 розвиває цю концепцію: потужність інференсу зростає до 3,6 EFLOPS (у 2,5 раза), потужність тренування — з 10 PFLOPS до 35 PFLOPS (у 3,5 раза), пам’ять GPU оновлюється з HBM3e до HBM4, подвоюючи обсяг із 141 ГБ до 288 ГБ, а пропускна здатність — з приблизно 8 ТБ/с до близько 22 ТБ/с. Ці цифри означають не просто «подвоєння продуктивності», а системне підвищення ефективності. Важливо, що зростання потужності інференсу (у 5 разів) значно випереджає зростання потужності для тренування (у 3,5 раза). Такий диференційований дизайн відображає чітке галузеве бачення: інференс витісняє тренування як основну сферу споживання обчислювальних ресурсів для ШІ.
Синергія шести чипів і повне рідинне охолодження: логіка ланцюга постачання та витрат за технічними рішеннями
Інновація Vera Rubin NVL72 на рівні чипів — це не просто оновлення одного GPU, а шість нових чипів: CPU Vera, GPU Rubin, комутатор NVLink 6, SuperNIC ConnectX-9, DPU BlueField-4 і Ethernet-комутатор Spectrum-6. Усі ці чипи розроблялися і тестувалися синхронно, а не інтегрувалися після окремого проектування. Така стратегія «одночасної ітерації повного стеку» спрямована на усунення давніх розривів у продуктивності між обчисленнями, зберіганням і мережею на технічному рівні, а також на створення значно вищих бар’єрів для входу, ніж у добу Blackwell — потенційні конкуренти мають не лише володіти GPU-дизайном, а й тримати темп у CPU, міжз’єднаннях, NIC, DPU та комутуючих чипах.
Повністю рідинне охолодження — ще один важливий технічний вибір. Кожна стійка Vera Rubin NVL72 споживає близько 440 кВт, працює при PUE близько 1,1 і може приймати воду з температурою до 45°C. Для порівняння, Blackwell NVL72 використовує часткове рідинне охолодження з PUE близько 1,25. На рівні однієї стійки ця різниця здається незначною, але при масштабуванні на тисячі стійок зниження PUE з 1,25 до 1,1 дає суттєву економію на електроенергії та інфраструктурі охолодження. Саме тому CoreWeave розробила Valvey (програмований модуль рідинного охолодження на рівні стійки) і Racky (уніфікований пристрій керування стійкою) спеціально для Vera Rubin — рідинне охолодження переходить із «опціонального рішення» у «базову інфраструктуру».
Ключовим обмеженням ланцюга постачання є те, що повне рідинне охолодження Vera Rubin і синергія шести чипів створюють кілька виробничих вузьких місць. Пам’ять HBM4 наразі постачають переважно Samsung Electronics і SK Hynix. Темпи нарощування виробництва компонентів для охолодження та синхронізована доставка системних компонентів можуть обмежити темпи проникнення Vera Rubin на ринок.
Вартість інференсу знижується до однієї десятої: нова економіка AI-застосувань
Серед усіх технічних характеристик Vera Rubin NVL72 найбільше економічне значення мають такі: у порівнянні з Blackwell, вартість інференсу на мільйон токенів знижується приблизно до однієї десятої, продуктивність інференсу на ват зростає до 10 разів, а кількість GPU, необхідних для еквівалентного навантаження, може скоротитися на три чверті.
Ці показники досягаються завдяки трьом технологічним проривам: 3-нм техпроцес підвищує щільність транзисторів (33,6 млрд транзисторів, приблизно на 60% більше, ніж у Blackwell), HBM4 подвоює пропускну здатність пам’яті, а шосте покоління NVLink ще більше зменшує вузькі місця у комунікації між GPU. Ще важливіше, що зниження вартості інференсу відкриває можливості для сценаріїв, які раніше були економічно недосяжними.
Наприклад, для автономних агентів у реальному часі: коли ШІ стає сервісом, що працює постійно й ухвалює рішення проактивно, а не реагує на окремий запит користувача, вартість на мільйон токенів безпосередньо визначає життєздатність бізнес-моделі. Та ж логіка стосується інференсу з мільйонним контекстом — аналізу цілих книг, довгих транскриптів зустрічей або повних кодових баз, де один запит споживає величезну кількість токенів. Зниження вартості у 10 разів переводить такі продукти з «демо-рівня» на «масштабований рівень».
За даними TrendForce, у 2026 році п’ять основних CSP Північної Америки планують збільшити обчислювальні потужності для інференсу на 122%, тоді як для тренування — лише на 56%. Інференс зростає більш ніж удвічі швидше за тренування. Така структурна зміна означає, що оптимізація Vera Rubin під інференс має не лише технічне, а й вагоме комерційне підґрунтя.
Перші сигнали хмарного розгортання: запуск CoreWeave та ефекти для галузевого ланцюга
CoreWeave оголосила про успішне хмарне розгортання Vera Rubin у день початку масового виробництва — цей збіг заслуговує на окремий аналіз. Він свідчить про кілька фактів: ранню готовність ланцюга постачання обладнання, підготовленість програмного стеку та операцій, а також глибоку стратегічну синергію між CoreWeave і NVIDIA.
Варто зазначити, що твердження CoreWeave про статус «першого» є дещо спірним. У березні 2026 року Microsoft заявила, що першою серед гіпермасштабних хмарних провайдерів валідувала Vera Rubin NVL72 у хмарі (для цілей валідації). Різниця між «першим у розгортанні» і «першим у валідації» відображає складність претензій на «першість» у конкуренції AI-інфраструктури. Критерії таких тверджень залишаються відкритими для інтерпретації різними сторонами.
З погляду галузевого ланцюга, розгортання Vera Rubin у CoreWeave базується на рідинно-охолоджуваних серверах PowerEdge XE9812 від Dell Technologies, а мережева архітектура підтримує як NVIDIA Quantum-X800 InfiniBand, так і Spectrum-X Ethernet. Багатоканальна RoCE-архітектура забезпечує 1,6 Тбіт/с пропускної здатності на кожен GPU. Це означає, що екосистема Vera Rubin охоплює не одного виробника, а формується багаторівневою співпрацею від OEM-серверів до мережевого обладнання.
CoreWeave буде офіційно включено до індексу Russell 3000 27 червня 2026 року. Станом на 31 березня 2026 року NVIDIA володіє близько 11% акцій CoreWeave. За даними FactSet, медіанний прогноз виручки від 31 аналітика для CoreWeave у 2026 році становить $12,589 млрд, а довгостроковий прогноз на 2029 рік — $50,458 млрд. Динаміка зростання виручки тісно пов’язана з постачанням обчислювальних потужностей Vera Rubin — прогрес у впровадженні нової архітектури прямо вплине на розширення можливостей CoreWeave і реалізацію доходів.
Багатосценарний галузевий вплив: від зниження вартості інференсу до перебудови організації обчислень
Розміщення запуску Vera Rubin NVL72 у ширшому галузевому контексті показує три взаємопов’язані еволюційні траєкторії.
Перша — це еволюція попиту й пропозиції обчислювальних ресурсів. Крива зростання зміщується від «орієнтації на тренування» до «орієнтації на інференс». Потреба Agentic AI у безперервній роботі, низьких затримках і високій пропускній здатності розширює попит від кількох гігантських кластерів для тренування до розподілених інфраструктурних мереж для інференсу. План центру обробки даних Vera Rubin від Supermicro (масштабування від 5 МВт до 1 ГВт) відповідає цій зміні — постачання обчислень більше не повинно монополізуватися мегадата-центрами; середні AI-фабрики можуть економічно розгортати топові потужності.
Друга — це реструктуризація конкурентного середовища. Одночасна ітерація шести чипів означає, що NVIDIA системно вибудовує бар’єри для входу. Для потенційних конкурентів опанування GPU-дизайну — лише перший крок; необхідно також вирішити питання скоординованої оптимізації CPU, міжз’єднань, DPU, NIC і комутуючих чипів. Складність і глибина цього стеку технологій зростає експоненційно, що підсилює тиск на існуючих гравців.
Третя — це зміна комерційних умов для AI-застосувань. Зниження вартості інференсу може зробити економічно досяжними сценарії, які раніше були занадто дорогими, особливо ті, що потребують довготривалих і безперервних AI-навантажень. Однак цей ланцюг передачі не є автоматичним — адаптація програмного стеку, сумісність архітектури моделей із новим обладнанням і стратегія ціноутворення хмарних сервісів визначатимуть, наскільки повністю вигоди від зниження вартості інференсу будуть реалізовані на рівні застосувань.
У сценарному аналізі базовий (найімовірніший) варіант — лінійне зниження вартості інференсу, що стимулює подальшу оптимізацію структури витрат AI-застосувань із системним покращенням у 2027–2028 роках. Агресивний сценарій (середня ймовірність) — ринок враховує тренд зниження вартості наперед, змінюючи стандарти закупівлі обчислень із «пікової продуктивності» на «кількість токенів на ват» і «вартість мільйона токенів», а стійки замінюють сервери як мінімальну одиницю обчислень, і хмарні провайдери, які першими адаптують системний підхід, отримують перевагу першого руху. Ризиковий сценарій (менш імовірний, але не виключений) — це проблеми з масовим виробництвом чи стабільністю ланцюга постачання: постачання HBM4, виробничі потужності компонентів охолодження, синхронізована доставка шести чипів; затримки на будь-якому етапі можуть уповільнити проникнення на ринок.
Висновок
Запуск Vera Rubin NVL72 змінює логіку конкуренції в AI-обчисленнях із «ітерації чипів» на «інтеграцію систем». Синергія шести чипів, концепція стійки як комп’ютера і зниження вартості інференсу на порядок разом формують нову хвилю обчислювальної революції. Blackwell відкрив вікно для обчислень на рівні стійки; Vera Rubin прагне розширити це вікно до межі — не просто швидші GPU, а переосмислення організації, розгортання і ціноутворення обчислювальних ресурсів для ШІ.
Для ринкових гравців ключовими змінними стають не «швидкість наступного GPU», а «як швидко вигоди від зниження вартості інференсу дійдуть до рівня застосувань» і «наскільки зміни в організації обчислень трансформують дизайн дата-центрів і конкуренцію хмарних провайдерів». Галузева колаборативна валідація Vera Rubin NVL72 дає перші відповіді, але реальна ефективність після масштабного впровадження, стабільність ланцюга постачання і здатність ринку поглинати нові потужності потребують подальшого моніторингу.
FAQ
Які основні вдосконалення Vera Rubin NVL72 порівняно з Blackwell?
Vera Rubin NVL72 забезпечує потужність інференсу на рівні стійки 3,6 EFLOPS — у 2,5 раза більше, ніж Blackwell NVL72 (1,44 EFLOPS), і знижує вартість інференсу на мільйон токенів приблизно до однієї десятої.
Чому зростання потужності для тренування у Vera Rubin (у 3,5 раза) нижче за зростання потужності для інференсу (у 5 разів)?
Ця різниця відображає стратегічне бачення NVIDIA щодо тенденцій галузі — навантаження на інференс зростають швидше, ніж на тренування, і нова архітектура оптимізована більш агресивно саме для сценаріїв інференсу.
Що означає для CoreWeave статус першого хмарного провайдера, який розгорнув Vera Rubin?
Інженерна співпраця CoreWeave з NVIDIA значно виходить за межі традиційних відносин постачальник-замовник; перше розгортання підтверджує готовність програмного стеку та операцій Vera Rubin.
Що означає рішення про 100% рідинне охолодження для дата-центрів?
Повне рідинне охолодження Vera Rubin NVL72 знижує PUE з приблизно 1,25 (Blackwell) до близько 1,1, що дає значну економію електроенергії та інфраструктури охолодження при розгортанні на тисячі стійок.
Які ризики ланцюга постачання супроводжують масове виробництво Vera Rubin?
Пам’ять HBM4 переважно постачають Samsung Electronics і SK Hynix; темпи нарощування виробництва компонентів охолодження та синхронізована доставка шести чипів можуть обмежити проникнення на ринок.
Які нові сценарії застосування відкриває десятикратне зниження вартості інференсу?
Безперервна робота агентів у реальному часі, інференс із мільйонним контекстом і масштабовані розподілені інференс-розгортання — сценарії, які раніше були економічно недосяжними через високу вартість токенів, тепер стають можливими.
Який вплив матиме включення CoreWeave до індексу Russell 3000?
Включення до індексу Russell 3000 стимулює пасивне алокування ETF, підвищуючи доступність і ліквідність CoreWeave серед інституційних інвесторів.
Чи змінила архітектура Vera Rubin інвестиційну логіку для AI-інфраструктури?
Інвестиційна логіка зміщується від «перегонів за продуктивністю однієї карти» до «конкуренції системної ефективності», де основними метриками стають щільність обчислень на рівні стійки, кількість токенів на ват і вартість мільйона токенів.




