Мировые ведущие большие модели не справляются с «Покемоном»: эти игры — кошмар для ИИ

PANews

2026-01-27 00:31:54

Автор: Госяоцзин, Tencent Technology

Редактор｜Сюй Циньян

Лучшие в мире модели ИИ могут сдавать медицинские экзамены, писать сложный код, а также побеждать экспертов-человеков на математических олимпиадах, но при этом неоднократно терпят неудачу в детской игре «Покемон».

Этот яркий эксперимент начался в феврале 2025 года, когда один из исследователей Anthropic запустил трансляцию на Twitch под названием «Claude играет в《Покемон Красный》», приуроченную к выпуску Claude Sonnet 3.7.

В трансляцию ворвались 2000 зрителей. В общем чате зрители предлагали идеи, подбадривали, и эта трансляция постепенно превратилась в публичное наблюдение за возможностями ИИ.

Sonnet 3.7 можно назвать «умеющим играть» в《Покемон》, но «уметь играть» — не значит «побеждать». Он застревал на ключевых этапах на десятки часов, допускал ошибки, которые даже дети-игроки не совершили бы.

Это не первый опыт Claude.

Ранние версии показывали куда более катастрофичные результаты: одни бродили по карте без цели, другие попадали в бесконечные циклы, а некоторые даже не могли выбраться из новичкового поселка.

Даже у значительно улучшенной Claude Opus 4.5 продолжали возникать загадочные ошибки. Однажды она целых четыре дня кружила вокруг «дома-стены» в «Гиродане», так и не войдя внутрь, потому что просто не заметила, что нужно сбить дерево, мешающее на перекрестке.

Почему детская игра стала полем битвы для ИИ?

Потому что《Покемон》требует именно тех навыков, которых сегодня наиболее недостает ИИ: постоянного рассуждения в открытом мире без четких указаний, запоминания решений нескольких часов назад, понимания скрытых причинно-следственных связей, долгосрочного планирования среди сотен возможных действий.

Эти задачи легко решаются восьмилетним детям, но для моделей ИИ, заявляющих о «превзойдении человека», — это непреодолимый разрыв.

01 Разрыв в инструментарии определяет успех или провал?

В то время как Google Gemini 2.5 Pro в мае 2025 года успешно прошел сложную игру《Покемон》, генеральный директор Google Сундар Пичаи в шутку отметил, что компания сделала шаг в создании «искусственного интеллекта для《Покемон》».

Однако этот результат нельзя объяснить только тем, что модель Gemini «умнее».

Ключевое отличие — в используемом наборе инструментов. Независимый разработчик Джоэл Чжан, отвечающий за трансляцию《Покемон》с Gemini, сравнил его с «железным костюмом Железного человека»: ИИ не входит в игру голым, а находится в системе, которая может вызывать различные внешние возможности.

Набор инструментов Gemini включает больше функций, например, преобразование игрового изображения в текст, что компенсирует слабость модели в визуальном понимании, а также предоставляет инструменты для решения головоломок и планирования маршрутов. В то время как Claude использует более минимальный набор инструментов, его попытки более прямо отражают реальные возможности модели в восприятии, рассуждении и выполнении.

В повседневных задачах такие различия незаметны.

Когда пользователь обращается к чат-боту с запросом, требующим поиска в интернете, модель автоматически вызывает поисковый инструмент. Но в долгосрочных задачах, таких как《Покемон》, разница в инструментарии становится критической и способна определить успех или провал.

02 Поэтапность выявляет «кратковременную память» ИИ

Поскольку《Покемон》использует строгий пошаговый режим без необходимости мгновенной реакции, она стала отличной «площадкой для тренировок» ИИ. В каждом ходе ИИ достаточно объединить текущий кадр, подсказки и возможные действия, чтобы вывести команду вроде «нажать A».

Это кажется именно той формой взаимодействия, в которой большие языковые модели наиболее сильны.

Проблема — в «разрыве» по времени. Несмотря на то, что Claude Opus 4.5 уже отработала более 500 часов и совершила около 170 тысяч шагов, из-за перезагрузки после каждого действия модель ограничена узким контекстным окном, в котором ищет подсказки. Эта механика делает её похожей на забывчивого человека, который держит информацию на стикерах, циклично просматривает фрагменты, но так и не способен перейти от количественных изменений к качественным — к настоящему опыту.

В таких областях, как шахматы и го, ИИ давно превосходит человека, но эти системы специально адаптированы под конкретные задачи. В отличие от них, универсальные модели Gemini, Claude и GPT, побеждающие человека в экзаменах и конкурсах программирования, часто терпят неудачу в детских играх.

Этот контраст сам по себе очень поучителен.

По мнению Джоэла Чжана, основная проблема ИИ — неспособность долгое время выполнять одну и ту же задачу с ясной целью. «Если вы хотите, чтобы агент действительно делал работу, он не должен забывать, что делал пять минут назад», — говорит он.

Именно эта способность — необходимое условие автоматизации когнитивных процессов.

Более наглядное описание дал независимый исследователь Питер Виден. Он опубликовал открытый исходный код алгоритма《Покемон》на базе традиционного ИИ. «ИИ почти всё знает о《Покемон》, — говорит он, — он обучен на огромных данных человека, знает правильные ответы. Но при выполнении он оказывается неуклюжим».

В игре эта «знание, но неспособность действовать» проявляется особенно ярко: модель может знать, что нужно искать предмет, но не может стабильно определить его положение на двумерной карте; знает, что нужно общаться с NPC, но в пиксельных движениях постоянно ошибается.

03 За кулисами развития возможностей: непреодолимый «инстинкт» разрыва

Тем не менее, прогресс ИИ очевиден. Claude Opus 4.5 заметно лучше предшественников в саморегистрации и визуальном понимании, что позволяет ему проходить дальше в игре. Gemini 3 Pro после прохождения《Покемон Синего》 успешно завершил《Покемон Кристалл》 — более сложную игру, и при этом не потерпел ни одной поражения. Это было недостижимо для Gemini 2.5 Pro.

Также Anthropic выпустила набор инструментов Claude Code, позволяющий модели писать и запускать собственный код, и он уже использовался в таких ретро-играх, как《Тираннозавр-Рекс», — сообщают, что он успешно управляет виртуальным парком развлечений.

Эти примеры показывают одну непростую реальность: модели с правильным набором инструментов могут показывать очень высокую эффективность в разработке программного обеспечения, бухгалтерии, юридическом анализе и других знаниях, хотя и остаются неспособными к задачам, требующим мгновенной реакции.

Эксперимент с《Покемон》 также выявил интересный феномен: модели, обученные на данных человека, проявляют поведение, близкое к человеческому.

В техническом отчёте Gemini 2.5 Pro Google отмечает, что при моделировании «паники», например, когда《Покемон》вскоре потеряет сознание, качество рассуждений резко падает.

А когда Gemini 3 Pro прошел《Покемон Синий》, он оставил себе заметку: «Чтобы закончить поэтично, я возвращаюсь домой, чтобы последний раз поговорить с мамой, и пусть персонаж уйдет на пенсию».

По мнению Джоэла Чжана, такое поведение удивительно и даже содержит элемент человеческой эмоциональной проекции.

04 Непреодолимый «Длинный поход» цифровых технологий — гораздо больше, чем《Покемон》

《Покемон》 — не исключение. В пути к созданию общего искусственного интеллекта (AGI) разработчики обнаружили, что даже если ИИ показывает отличные результаты на судебных экзаменах, он все равно сталкивается с непреодолимыми «потерпевшими поражение» в таких сложных играх, как:

《NetHack》: бездны правил

Эта игра 80-х годов — настоящий кошмар для исследований ИИ. Она очень случайна и включает механизм «вечной смерти». Facebook AI Research обнаружил, что даже если модель умеет писать код, в《NetHack》она показывает результаты гораздо хуже, чем начинающие люди.

《Майнкрафт》: исчезновение цели

Хотя ИИ уже умеет делать деревянные кирки и добывать алмазы, «победить» Вечное Дракона — пока лишь мечта. В открытом мире ИИ часто забывает о первоначальной цели в процессе долгого сбора ресурсов или теряется в сложных навигациях.

《Starcraft II》: разрыв между универсальностью и специализацией

Несмотря на то, что специально обученные модели побеждали профессиональных игроков, если дать Claude или Gemini управлять игрой по визуальным подсказкам, они мгновенно провалятся. В условиях «тумана войны» и необходимости балансировать микро-управление и стратегию универсальные модели пока не справляются.

《Тираннозавр-Рекс》: дисбаланс между микроменеджментом и макроэкономикой

Управление парком развлечений требует отслеживания тысяч посетителей. Даже Claude Code с базовыми навыками управления легко устаёт при больших финансовых кризисах или авариях. Каждая ошибка в рассуждениях может привести к банкротству парка.

《Элден Ринг》 и《Джудо Сага》: пропасть в физической обратной связи

Эти игры с интенсивной физикой очень сложны для ИИ. Задержки в визуальной обработке означают, что пока ИИ «думает» о движениях босса, персонаж уже погиб. Мгновенная реакция — это естественный предел взаимодействия модели.

05 Почему《Покемон》стал тестом для ИИ?

Сегодня《Покемон》стала неофициальным, но очень убедительным тестом для оценки ИИ.

Модели Anthropic, OpenAI и Google в трансляциях на Twitch собрали сотни тысяч комментариев. В техническом отчёте Google подробно описывает прогресс Gemini в игре, а Пичаи на конференции I/O публично упомянул об этом. Anthropic даже создала демонстрационный стенд «Claude играет в《Покемон》» на отраслевых мероприятиях.

«Мы — группа энтузиастов технологий», — признается Дэвид Херши, руководитель отдела AI в Anthropic. — «Но это не только развлечение».

В отличие от традиционных односторонних тестов,《Покемон》позволяет долго отслеживать рассуждения, решения и продвижение целей модели, что ближе к реальным задачам, с которыми сталкиваются люди при использовании ИИ.

Пока что вызовы в《Покемон》продолжаются. Но именно эти повторяющиеся трудности ясно показывают границы возможностей общего искусственного интеллекта.

Специальный переводчик Вуцзи также внес вклад в подготовку этой статьи

Посмотреть Оригинал

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

комментарий

0/400

Нет комментариев