Світові провідні великі моделі не можуть пройти «Покемон»: ці ігри — кошмар для ШІ

PANews

Автор: Го Сяоцін, Tencent Technology

Редактор|Сюй Ціньян

Найкращі у світі моделі штучного інтелекту можуть скласти іспит на медичну ліцензію, писати складний код, а також перемагати людських експертів у математичних змаганнях, але при цьому неодноразово зазнають поразки у дитячій грі «Покемон».

Ця яскрава спроба розпочалася у лютому 2025 року, коли один із дослідників Anthropic провів трансляцію на Twitch під назвою «Claude грає у《Покемон Червоний》», щоб відзначити випуск Claude Sonnet 3.7.

2000 глядачів увірвалися до трансляції. У спільному чаті глядачі давали поради, підтримували та підбадьорювали Claude, і ця трансляція поступово перетворилася на публічне спостереження за можливостями AI.

Sonnet 3.7 міг «грати» у《Покемон》, але «грати» ще не означає «перемагати». Він застрявав на ключових етапах на десятки годин і робив низькоякісні помилки, яких навіть дитячі гравці не допустили б.

Це не перша спроба Claude.

Ранні версії показували ще гірший результат: одні блукали без цілі по карті, інші зациклювалися у нескінченних циклах, а деякі навіть не могли вийти з Новачка.

Навіть у значно покращеній Claude Opus 4.5 траплялися дивні помилки. Один раз вона крутилася навколо «зовнішнього тренажерного залу» цілих чотири дні, так і не зайшовши всередину, бо просто не усвідомлювала, що потрібно зруйнувати дерево на перехресті.

Чому дитяча гра стала «льодовиком» для AI?

Бо《Покемон》 вимагає саме тих навичок, яких найсучасніший AI найсильніше бракує: постійного логічного мислення у відкритому світі без чітких інструкцій, запам’ятовування рішень кілька годин тому, розуміння прихованих причинно-наслідкових зв’язків, довгострокового планування серед сотень можливих дій.

Ці завдання легко даються 8-річним дітям, але для AI-моделей, що прагнуть «перевершити людину», це — неподоланна прірва.

01 Різниця у наборах інструментів визначає успіх чи провал?

У порівнянні з цим, Google Gemini 2.5 Pro у травні 2025 року успішно пройшов схожу《Покемон》. Генеральний директор Google Сундар Пічаї навіть у публічних виступах жартома зазначив, що компанія зробила крок у створенні «штучного інтелекту для《Покемон》».

Однак цей результат не можна пояснити лише тим, що модель Gemini «розумніша».

Головна різниця — у наборах інструментів, які використовуються моделлю. Незалежний розробник, що керує трансляцією《Покемон》 для Gemini, Джоел Чжан, порівняв ці інструменти з «бронею Железного Людини»: AI не входить у гру голим, а знаходиться у системі, що може викликати різні зовнішні можливості.

Набір інструментів Gemini пропонує більше підтримки, наприклад, перетворює ігровий знімок у текст, щоб компенсувати слабкість моделі у візуальному розумінні, і надає інструменти для розв’язання головоломок і планування маршрутів. У порівнянні з цим, набір інструментів Claude більш мінімалістичний, і його спроби більш безпосередньо відображають реальні можливості моделі у сприйнятті, логіці та виконанні.

У повсякденних завданнях ці різниці майже не відчутні.

Коли користувачі звертаються до чат-бота з запитами, що вимагають підключення до інтернету, модель автоматично викликає пошукові інструменти. Але у довготривалих завданнях, таких як《Покемон》, різниця у наборах інструментів стає вирішальною.

02 Покроковий режим виявляє «короткозорість» довготривалої пам’яті AI

Оскільки《Покемон》 використовує сувору покрокову систему без необхідності миттєвої реакції, вона стала ідеальним «полем для тренувань» AI. У кожному кроці AI потрібно лише поєднати поточне зображення, цільовий запит і можливі дії для логічного висновку, наприклад, натиснути «A».

Це — саме той тип взаємодії, у якому найбільше сильні сучасні великі мовні моделі.

Проблема у тому, що у часі виникає «розрив». Хоча Claude Opus 4.5 уже працює понад 500 годин і виконав близько 170 000 кроків, через перезавантаження після кожного кроку модель може працювати лише у дуже вузькому контексті. Це робить її схожою на людину, що пам’ятає лише фрагменти, і не здатну зробити якісний перехід від кількості до якості досвіду.

У сферах шахів і го AI системи давно перевершили людину, але ці системи — високотехнологічно налаштовані для конкретних завдань. У порівнянні з цим, Gemini, Claude і GPT — універсальні моделі, що часто перемагають людину у тестах і змаганнях з програмування, але у дитячих іграх зазнають поразки.

Ця контрастність сама по собі дуже багато дає для розуміння.

На думку Джоела Чжана, головна проблема AI — у неспроможності довго виконувати одну чітку ціль. «Якщо ти хочеш, щоб агент виконав справжню роботу, він не може забути, що робив п’ять хвилин тому», — зазначає він.

Саме ця здатність — ключова для автоматизації когнітивної праці.

Самотужки дослідник Пітер Відден дав більш наочне пояснення. Він опублікував відкритий алгоритм《Покемон》на основі традиційного AI. «AI майже все знає про《Покемон》, — каже він, — навчене на масиві людських даних, воно чітко знає правильну відповідь. Але при виконанні воно — незграбне і повільне».

У грі ця «знання, але неспроможність діяти» постійно посилюється: модель може знати, що потрібно шукати предмет, але не може стабільно визначити його на двовимірній карті; знає, що потрібно спілкуватися з NPC, але у піксельних рухах постійно помиляється.

03 За межами можливостей: нерозв’язана «інстинктивна» прірва

Попри все, прогрес AI очевидний. Claude Opus 4.5 значно покращився у самозаписі та візуальному розумінні, що дозволило йому просуватися у грі далі. Gemini 3 Pro після проходження《Покемон Синій》завершив ще й《Покемон Кристал》з більш високим рівнем складності, і жодної поразки у боях.

Одночасно, Anthropic випустила набір інструментів Claude Code, що дозволяє моделі писати і запускати власний код, і вже використовує його у таких класичних іграх, як《Тисячоліття》, стверджуючи, що він може успішно керувати віртуальним парком розваг.

Ці приклади демонструють несподівану реальність: AI з правильним набором інструментів може бути надзвичайно ефективним у сферах розробки програмного забезпечення, бухгалтерії, юридичного аналізу тощо, хоча й залишається слабким у завданнях, що вимагають миттєвої реакції.

Експеримент《Покемон》 також виявив ще один цікавий феномен: моделі, навчені на людських даних, демонструють поведінку, близьку до людської.

У технічному звіті Gemini 2.5 Pro Google зазначає, що коли система імітує «стан паніки», наприклад, коли《Покемон》 майже знепритомніє, якість логіки значно погіршується.

А коли Gemini 3 Pro у підсумку пройшов《Покемон Синій》, він залишив собі невелике примітку, що не є обов’язковою для задачі: «Щоб поетично завершити, я повернуся до початкового дому, щоб останній раз поспілкуватися з мамою і вивести персонажа на пенсію».

На думку Джоела Чжана, ця поведінка несподівана і має у собі людське емоційне відображення.

04 Неминучий «цифровий довгий похід» AI — і більше, ніж《Покемон》

《Покемон》 — не єдиний приклад. У прагненні створити загальний штучний інтелект (AGI) розробники виявили, що навіть якщо AI успішно проходить судові іспити, у таких складних іграх, як《NetHack》, він все одно стикається з непереборними «льодовиками».

《NetHack》: безодня правил

Ця гра 80-х років — справжній кошмар для досліджень AI. Вона має сильну випадковість і механізм «постійної смерті». Facebook AI Research виявили, що навіть якщо модель може писати код, у《NetHack》з її потребами у логіці та довгостроковому плануванні вона показує набагато гірші результати, ніж початківці-люди.

《Майнкрафт》: зникнення цілі

Хоча AI вже може робити дерев’яні кирки і навіть добувати діаманти, «перемогти» Ендера — ще фантазія. У відкритому світі AI часто забуває свою початкову мету під час довгих годин збору ресурсів або заблукає у складних навігаціях.

《Зоряна стратегія II》: розрив між універсальністю і спеціалізацією

Хоча налаштовані моделі вже перемагали професійних гравців, якщо дати Claude або Gemini керувати через візуальні команди, вони миттєво зазнають краху. У боротьбі з «туманом війни» і балансуванні між мікроменеджментом і стратегічним будівництвом універсальні моделі ще не здатні.

《Тисячоліття》: дисбаланс між мікро- і макроуправлінням

Керування парком розваг вимагає слідкувати за тисячами відвідувачів. Навіть Claude Code з базовими навичками управління легко втомлюється при великих фінансових кризах або раптових аваріях. Кожна помилка у логіці може призвести до банкрутства парку.

《Ельдорадо》 і《Джудо》: розрив у фізичній реакції

Ці ігри з інтенсивною фізикою дуже складні для AI. Затримки у візуальній обробці означають, що коли AI ще «розмірковує» про рух босса, персонаж уже може бути вбитий. Миттєва реакція — природний обмежувач логіки взаємодії моделі.

05 Чому《Покемон》 став ідеальним тестом для AI?

Зараз《Покемон》 поступово перетворюється на неофіційний, але дуже переконливий критерій оцінки AI.

Трансляції моделей Anthropic, OpenAI і Google у Twitch зібрали сотні тисяч коментарів. У технічних звітах Google детально описує прогрес Gemini у грі, а Пічаї на конференції I/O відкрито говорив про цей успіх. Anthropic навіть створила демонстраційний стенд «Claude грає у《Покемон》» на галузевих заходах.

«Ми — група ентузіастів високих технологій», — зізнався керівник AI-проекту Anthropic Девід Герші. — «Але це не лише розвага».

На відміну від традиційних тестів з короткими питаннями,《Покемон》 дозволяє довго відслідковувати логіку, рішення і цілі моделі, що наближає її до реальних складних завдань, які люди хочуть, щоб AI виконував.

Поки що виклики у《Покемон》 для AI тривають. Але саме ці повторювані труднощі чітко окреслюють межі здатностей загального штучного інтелекту.

Спеціальний перекладач Ву Цзі також зробив внесок у цю статтю

Переглянути оригінал
Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.
Прокоментувати
0/400
Немає коментарів