OpenAI публікує протокол MRC для суперкомп’ютерної мережі! Разом із Nvidia, AMD та Microsoft створюють базову інфраструктуру Stargate

OpenAI оголосила про запуск нового протоколу AI «суперкомп’ютерної» мережі MRC (Multipath Reliable Connection) і вже відкрила його через Open Compute Project (OCP). Цю технологію спільно розробляють OpenAI та такі компанії, як AMD, Microsoft, NVIDIA, Intel, Broadcom тощо; мета — усунути вузьке місце з передаванням даних між GPU у надвеликих AI-тренувальних кластерах.

AI-тренування — справжня проблема не в GPU, а в тому, як вони спілкуються між собою

OpenAI зазначає, що, оскільки щотижневе використання ChatGPT уже перевищило 900 млн користувачів, AI-системи поступово перетворюються на сервіс рівня базової інфраструктури. Щоб підтримати потреби в тренуванні та виведенні наступних моделей, OpenAI вважає, що має еволюціонувати не лише сама модель — мережеву архітектуру також потрібно перерозробити.

У технічній статті OpenAI підкреслює: під час тренування великих AI-моделей один крок тренування може включати мільйони обмінів даними між GPU. Якщо затримка з’являється в одному з передавань, це може спричинити повну зупинку синхронізації всього тренування, через що значна кількість GPU простоюватиме.

А коли масштаби AI-суперкомп’ютера стають більшими, проблеми на кшталт мережевої перевантаженості, відмов комутаторів і «jitter» (дрижання затримки) стрімко посилюються. OpenAI вважає, що це — один із ключових технічних викликів у межах проєкту Stargate.

Раніше мережева архітектура дата-центрів здебільшого використовувала одношляхове передавання (single-path). Але головна зміна MRC полягає в тому, що один і той самий потік даних може одночасно розподілятися на сотні шляхів передавання.

Що таке MRC? OpenAI: зробити AI-мережі здатними автоматично «обходити перешкоди»

За даними OpenAI та AMD, ключові принципи MRC такі:

ділити дані на частини та одночасно прокладати їх кількома шляхами на автоматі обходити відмови на рівні мікросекунд зменшувати затримки, спричинені мережевою перевантаженістю підтримувати синхронну роботу GPU

AMD описує, що традиційна AI-мережа схожа на автостраду, яка рухається лише одним маршрутом: якщо виникає затор або аварія, це впливає на весь прогрес; натомість MRC — це інтелектуальна транспортна система з можливістю миттєвого перерозподілу маршрутів. AMD навіть заявляє: «Справжнім вузьким місцем під час масштабування AI є не GPU та CPU, а мережа».

Чому OpenAI вирішила самостійно проєктувати мережевий протокол

Сигнал цього разу від OpenAI дуже чіткий: AI-конкуренція — це вже не лише конкуренція моделей, а конкуренція цілого комплексу «інфраструктури суперкомп’ютера». У статті OpenAI згадується, що до появи Stargate вони разом із партнерами вже спільно підтримували три покоління AI-суперкомп’ютерів. Ці практичні напрацювання привели OpenAI до висновку: щоб ефективно використовувати обчислювальну потужність у масштабі Stargate, весь stack потрібно суттєво спрощувати — і це також стосується мережевого рівня.

Інакше кажучи, майбутня конкуренція Frontier Model — це вже не лише хто створить сильнішу модель, а хто зможе ефективніше синхронізувати роботу десятків і навіть сотень тисяч GPU.

За MRC стоїть Stargate: «мангеттенський проєкт» OpenAI

Передумовою MRC є Stargate LLC. Stargate — це ініціатива з розвитку великої AI-інфраструктури за участі OpenAI, SoftBank Group, Oracle Corporation та MGX; спочатку її метою було інвестувати в США до 500 млрд доларів в AI-інфраструктуру. OpenAI зазначає, що наразі вони вже перевищили проміжну ціль у 10GW, а протягом останніх 90 днів додали понад 3GW потужності AI-інфраструктури.

Суперкомп’ютер Stargate у місті Абілен, штат Техас, є одним із ключових майданчиків для розгортання MRC. OpenAI вказує, що MRC інтегровано в найновіший мережевий інтерфейс на 800Gb/s, і що його вже тестують у реальних великих тренувальних кластерах.

Ця стаття «OpenAI оприлюднила MRC — суперкомп’ютерний мережевий протокол!» уперше з’явилася на сайті Ланцюжок новин ABMedia.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

Anthropic представляє Claude Dreams: агент самостійно впорядковує пам’ять між задачами, усуває дублікати та суперечності

Anthropic на Code with Claude оголосила про Dreams, щоб Claude Managed Agents автоматично впорядковували пам’ять між кількома сесіями розмов, усували дублікати й суперечності, оновлювали застарілі записи та виводили таку, яку можна перевірити, відформатовану базу пам’яті; ліміт на введення становить 100 сесій і 4 096 символів, виконання асинхронне, завершується за кілька хвилин — кілька десятків хвилин, підтримує спостереження в реальному часі через стрім. Попередній доступ до дослідження потрібно запитувати: наразі доступні лише claude-opus-4-7 і claude-sonnet-4-6, дата офіційного запуску не визначена.

ChainNewsAbmedia1год тому

Anthropic з SpaceX щодо обчислювальних потужностей: отримали весь майданчик Colossus 1 на 220 тис. GPU, Claude зняв ліміти

Anthropic оголосила про домовленість із SpaceX щодо обчислювального партнерства для дата-центру Colossus 1: буде задіяно понад 220 тисяч Nvidia GPU, обсяг потужності — понад 300MW. Очікується, що протягом одного місяця все обладнання буде повністю розгорнуте для використання Anthropic, щоб підвищити продуктивність і досвід для Claude та Code. Паралельно послабили ліміти споживання для Pro / Max / Team / Enterprise — зменшення до кожних 5 годин, скасували ліміти в пікові періоди та збільшили швидкість Opus API. Також розширюють базову інфраструктуру в Азії та Європі; у майбутньому є додаткові наміри на кшталт «орбітальних AI-обчислень», але ще не укладено жодних угод.

ChainNewsAbmedia2год тому

Інженер Coinbase: ШІ-агенти можуть порушити модель вебреклами

Ерік Реппел, інженер Coinbase, заявив, що агенти штучного інтелекту можуть фундаментально підірвати бізнес-модель інтернету, яка залежить від реклами. За словами Реппела, вебекономіка значною мірою спирається на рекламні надходження, що генеруються людськими користувачами, але AI-агенти обходять цю систему

CryptoFrontier2год тому

Anthropic подвоює ліміти швидкості для Claude Code після отримання 300 МВт потужності за угодою з SpaceX

За даними Odaily, Anthropic підписала угоду зі SpaceX, щоб отримати доступ до повної обчислювальної потужності датацентру Colossus 1, забезпечивши понад 300 мегават нових потужностей і більше ніж 220 000 NVIDIA GPU протягом місяця. Відразу ж набули чинності погодинні ліміти Claude Code для Pro на 5 годин,

GateNews2год тому

Платформа для рекрутингу на базі ШІ Ethos завершила раунд серії A на суму $22,75 млн, лідером якого виступила a16z, 6 травня

За даними BlockBeats, лондонська платформа для добору AI-кадрів Ethos завершила раунд фінансування Series A на суму 22,75 мільйона доларів 6 травня: Andreessen Horowitz (a16z) очолив раунд, а General Catalyst долучився. Платформа використовує AI для співбесід із кандидатами та аналізує

GateNews4год тому
Прокоментувати
0/400
Немає коментарів