Zhu Yuan GE-Sim 2.0: За допомогою World Model генеруйте світ, а суперник Unitree виштовхує людиноподібного робота до самовдосконалення

Утілена мудрість (Embodied AI) щойно входить у ключовий переломний момент. Китайський компанія-розробник роботів-автоматів нещодавно оприлюднив Genie Envisioner World Simulator 2.0 (GE-Sim 2.0), намагаючись просунути World Model (світову модель) із простого інструмента для розуміння середовища в симулятор світу (World Simulator), який може безпосередньо запускатися, використовуватися для навчання та оптимізації роботів.

Якщо ви ще не розумієте, наскільки це критично, можете спершу глянути на вади архітектури LLM: з погляду навчання наявні LLM просто прогнозують контекст на основі величезних масивів даних. Вони можуть знати, що «яблуко падає» ці кілька слів часто трапляються разом, але вони насправді не розуміють причинно-наслідкові зв’язки гравітації чи фізичного світу.

Саме тому такі вчені, як Ян Лекун та Лі Фей-Лі, долучилися до напряму World Model: коли ШІ матиме здатність розуміти 3D-середовище та робити фізичні прогнози, ця технологія стане цифровим «мозком» для автономних роботів, автоматизованого керування та розумного виробництва — «реального AI» (Physical AI). Тому в маршруті World Model стверджується, що робот буде вкрай важливим носієм. Нині в гру входить компанія з виробництва гуманоїдних роботів — Цзичуань Роботс (智元机器人), що символізує, що Китай висуває піонерів «зворотного» наступу в бік апаратного забезпечення.

Раніше голова правління TSMC Вей Чжаоцзя казав: якщо дивитися на те, що в Китаї постійно роблять роботів, які можуть підстрибувати, стрибати й підстрибувати знову. Це не має сенсу — це просто гарна картинка. Він зазначив, що ключове — змусити «мозок» роботів працювати, а хто його робить: Nvidia (Nvidia), AMD (AMD), та купа американських компаній; але 95% «мозку» виготовляє TSMC. Де-скрудка розвитку GE-Sim 2.0 ще залишається, і вона жорстко прив’язана до розвитку моделей у Китаї.

Маршрут World Model стверджує, що робот — ключ

Нинішні провідні LLM покладаються на масивні корпуси даних і статистичні зв’язки, щоб розуміти контекст, та прогнозують наступне слово. Вони можуть знати, що «яблуко падає» ці кілька слів часто трапляються разом, але вони насправді не розуміють причинно-наслідкові зв’язки гравітації чи фізичного світу.

Такий підхід чудово працює для текстової генерації, програмної допомоги або задач із запитаннями й відповідями, але в ситуаціях, де потрібно розуміти структуру реального світу, робити причинно-наслідкові міркування та будувати довгострокові плани, все ще існують фундаментальні обмеження. Більша проблема в тому, що джерела даних поступово виснажуються. Навчання LLM дуже залежить від якісних людських даних, а останніми роками індустрія вже почала попереджати: доступні текстові дані людей можуть бути використані до кінця протягом кількох наступних років. Тоді це буде як близькоспоріднене розмноження, яке призводить до спадкових дефектів, і зрештою модель все більше відхилятиметься від реальності та демонструватиме деградацію продуктивності.

(Глибокий розбір: у LLM є вади? Чому Ян Лекун ставить на AMI — маршрут World Model)

Саме тому в останні роки двоє важковаговиків у спільноті AI — Ян Лекун і Лі Фей-Лі, якого називають «AI хрещеною матір’ю», — обрали зробити ставку на нове покоління AI-архітектури, відоме як World Model (світова модель).

Тоді автор свого часу писав: якщо подивитися ширше, то коли AI матиме здатність розуміти 3D-середовище та здійснювати фізичні прогнози, ця технологія стане цифровим мозком для автономних роботів, автоматизованого керування та розумного виробництва — «реального AI» (Physical AI). Тому в маршруті World Model стверджується, що робот буде вкрай важливим носієм. Нині в гру входить виробник гуманоїдних роботів — Цзичуань Роботс (智元机器人), що символізує, що Китай висуває піонерів «зворотного» наступу в бік апаратного забезпечення.

Раніше голова TSMC Вей Чжаоцзя, говорячи про розвиток роботів і напівпровідників, прямо сказав: якщо дивитися на те, що в Китаї постійно роблять роботів, які можуть підстрибувати, стрибати й підстрибувати знову. Це не має сенсу — це просто гарна картинка. Він зазначив, що ключове — змусити «мозок» роботів працювати, а хто його робить: Nvidia (Nvidia), AMD (AMD) та купа американських компаній, але 95% «мозку» виготовляє TSMC.

(Вей Чжаоцзя від TSMC «підколов» Китай: роботи пісньо й підстрибують — лише гарна картинка, без користі! Ключ усе ще надходить від Nvidia)

Еволюція World Model: від розуміння світу до навчання в світі

Протягом останніх кількох років World Model вважалася ключовою технологією для того, щоб AI міг розуміти реальність. Завдяки зображенням, мові та даним сенсорів модель може прогнозувати зміни в середовищі, надаючи роботам базову здатність ухвалювати рішення.

Але головним проривом GE-Sim 2.0 є те, що це не лише «розуміння світу», а навчання й система дій безпосередньо в «світі, згенерованому моделлю». При цьому Action (дія) додається в ядро змінних: від традиційного передбачення станів до повного циклу:

State

Action

State Evolution

Це означає, що робот уже не просто спостерігає та реагує, а може активно експериментувати, автономно оптимізувати та безперервно навчатися в симульованому середовищі. Ця зміна перетворює World Model із «моделі пізнання» на «інфраструктуру для навчання».

GE-Sim 2.0: змусити роботів «еволюціонувати» у віртуальному світі

GE-Sim 2.0 визначають як набір «тілесних симуляторів світу». Його ключова мета — вирішити три найбільші «вузькі місця» реального навчання: надто високу вартість, недостатність даних і складність масштабування. Завдяки генеруванню середовища моделлю система може масово навчати роботів без залежності від реального світу.

З технічного погляду GE-Sim 2.0 інтегрує три ключові можливості: по-перше, «генерування відео за керуванням діями». Модель може на основі дій робота генерувати відповідні майбутні кадри та зберігати узгодженість між кількома ракурсами, включно з перспективою голови та ракурсами керування лівою й правою рукою.

По-друге — моделювання пропріоцепції (proprioception): не лише симулювати зовнішні зображення, а й прогнозувати власні стани суглобів і рухів робота, щоб ухвалення рішень було ближчим до реального фізичного світу.

Третє — «автоматична оцінка завдань». За допомогою вбудованої reward model (моделі винагороди) система може автоматично визначати, чи завдання виконано, наприклад «покласти синій об’єкт у червоний контейнер», та давати зворотний зв’язок, який безпосередньо використовується для reinforcement learning. Це дозволяє роботу виконувати повний закритий цикл у симульованому середовищі:

GE-Sim 2.0 вже може забезпечувати «поминутну» стабільну генерацію відео

На відміну від ранніх моделей, які могли генерувати лише короткі фрагменти, GE-Sim 2.0 вже здатна забезпечити «поминутну» стабільну генерацію відео та підтримує симуляцію завдань протягом тривалого часу. Водночас завдяки навчанню на масштабних реальних даних (дані дистанційного керування, розгортання та взаємодії) модель має сильнішу здатність до узагальнення між різними сценаріями та завданнями. Особливо це критично для гуманоїдних роботів: тому що в реальному світі робота дуже змінна, і неможливо навчати лише на фіксованих сценах.

Поява World Simulator означає, що роботи зможуть «вічно тренуватися» у віртуальному світі. Це спричинить дві структурні зміни: по-перше, вартість навчання суттєво знизиться. По-друге, швидкість ітерацій можливостей зростатиме експоненційно.

Цзичуань Роботс (智元机器人): нова сила в гуманоїдних роботах Китаю

Цзичуань Роботс заснована у 2023 році Пэн Чжи-Хуей, якого називають «genius youth» від Huawei, зосереджується на напрямі утіленого інтелекту, що поєднує AI та робототехніку.

Ключові продукти компанії включають:

серію гуманоїдних роботів «Юаньчжен» (遠征)

робот-систему «Ліньсі» (灵犀)

універсальну велику модель GO-1

Наразі вже завершено кілька раундів фінансування, а також компанію інвестували такі установи, як Sequoia China та Hillhouse Capital, її вважають важливим гравцем у сфері гуманоїдних роботів Китаю та вона створює конкурентну картину разом із Unitree (宇树科技).

Ця стаття «Цзичуань GE-Sim 2.0: генеруйте світ за допомогою World Model — головний конкурент Unitree виштовхує гуманоїдних роботів до самоусявної еволюції» вперше з’явилася в «Ланцюжкових новинах ABMedia».

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.
Прокоментувати
0/400
Немає коментарів