Світові провідні великі моделі не можуть пройти «Покемон»: ці ігри — кошмар для ШІ

動區BlockTempo

Хоча провідні світові моделі штучного інтелекту демонструють високі результати у медичних іспитах, програмуванні та інших професійних сферах, вони неодноразово зазнають поразки у дитячій грі «Покемон», що викриває їхні ключові недоліки у довгостроковому мисленні, пам’яті та плануванні. Ця стаття походить із публічного акаунту Tencent Tech, автор —郭靜曉.
(Передісторія: я граю у війни з AI: GPT o3 — майстер інтриг, DeepSeek — фанат битв, Claude — як дурна білочка)
(Додатковий фон: Google «Gemini 2.0» вже тут! Запуск трьох типів AI-агентів: складні завдання, ігри, програмування)

Зміст статті

  • Різниця у наборах інструментів визначає успіх чи поразку?
  • Покрокова гра викриває короткозорість AI у «довготривалій пам’яті»
  • За розвитком здібностей: нерозв’язані «інстинктивні» розриви
  • Неможливий «цифровий Марш» AI — і не лише у «Покемоні»
    • «NetHack»: безодня правил
    • «Minecraft»: зникле відчуття цілі
    • «StarCraft II»: розрив між універсальністю та спеціалізацією
    • «Passenger Tycoon»: дисбаланс між мікро- та макроуправлінням
    • «Elden Ring» і «Sekiro»: розрив фізичної зворотної реакції
  • Чому «Покемон» став іспитом для AI?

Світові лідери AI можуть скласти медичний іспит, писати складний код і навіть перемагати людей у математичних змаганнях, але у дитячій грі «Покемон» вони знову зазнають поразки.

Ця захоплююча спроба почалася у лютому 2025 року, коли дослідник Anthropic запустив трансляцію «Claude грає у «Покемон червоний»» на Twitch, що співпало з випуском Claude Sonnet 3.7.

У трансляції брали участь 2000 глядачів. У чаті вони радили та підтримували Claude, і з часом ця трансляція перетворилася на публічне спостереження за можливостями AI.

Sonnet 3.7 — це вже «грає» у «Покемон», але «грає» не означає «перемагає». Він застрягає у ключових моментах на десятки годин і робить помилки, яких навіть дитячі гравці не допустили б.

Це не перший досвід Claude.

Ранні версії були ще гіршими: деякі блукали без цілі по карті, інші застрягали у нескінченних циклах, а деякі навіть не могли вийти з початкового села.

Навіть Claude Opus 4.5, з помітно покращеними можливостями, часом робить дивні помилки. Одного разу він цілий чотири дні кружляв навколо «посту» і так і не зайшов у нього, бо просто не помітив, що потрібно зрубати дерево, що заважає на шляху.

Чому дитяча гра стала провалом для AI?

Бо «Покемон» вимагає саме тих навичок, яких сучасний AI найсильніше бракує: постійного мислення у відкритому світі без чітких команд, пам’яті рішень кілька годин тому, розуміння прихованих причинно-наслідкових зв’язків, довгострокового планування серед сотень можливих дій.

Ці завдання легко для 8-річної дитини, але для AI, що прагне «перевершити людину», — це неподоланна прірва.

Різниця у наборах інструментів визначає успіх чи поразку?

У порівнянні з цим, Google Gemini 2.5 Pro у травні 2025 року успішно пройшов складну гру «Покемон». Генеральний директор Google Сундар Пічаї навіть у публічних виступах жартома зазначив, що компанія зробила крок у створенні «штучного розуму покемона».

Однак цей результат не можна пояснити лише тим, що модель Gemini «розумніша».

Головна різниця — у наборах інструментів, які використовує модель. Незалежний розробник Джоел Чжан порівнює їх із «бронекостюмом Железної людини»: AI не входить у гру голим, а знаходиться у системі, що може викликати різні зовнішні можливості.

Набір інструментів Gemini пропонує більше підтримки, наприклад, перетворює ігровий екран у текст, щоб компенсувати слабкість у візуальному розумінні, і має інструменти для кастомного розв’язання головоломок і планування маршрутів. У порівнянні Claude використовує більш простий набір, і його спроби відображають реальні можливості моделі у сприйнятті, мисленні та виконанні.

У повсякденних завданнях ці різниці майже непомітні.

Коли користувачі просять чат-бота зробити пошук у мережі, модель автоматично викликає пошуковий інструмент. Але у довготривалих завданнях, таких як «Покемон», різниця у наборах інструментів стає вирішальною.

Покрокова гра викриває короткозорість AI у «довготривалій пам’яті»

Оскільки «Покемон» — це жорстка покрокова гра без необхідності миттєво реагувати, вона стала ідеальним «полем для тренувань» AI. У кожному кроці AI потрібно поєднати поточний екран, цільові підказки та доступні дії для логічного висновку, наприклад, натиснути «A».

Це саме той тип взаємодії, у якому великі мовні моделі найкраще проявляють себе.

Проблема у часі — у «розриві» між кроками. Хоча Claude Opus 4.5 уже працює понад 500 годин і зробив близько 170 000 кроків, через перезавантаження після кожного кроку модель може працювати лише у дуже вузькому контексті. Це робить її схожою на людину, що пам’ятає лише короткі фрагменти, і не здатною перейти від кількісних змін до якісних перетворень досвіду.

У шахах і го AI вже перевершили людину, але ці системи — високотехнологічні рішення для конкретних завдань. У порівнянні з ними, універсальні моделі Gemini, Claude і GPT, що часто перемагають у іспитах і змаганнях з програмування, у дитячих іграх зазнають поразки.

Ця контрастність сама по собі багато чого навчає.

На думку Джоела Чжана, головна проблема AI — у неспроможності довго зберігати цілі та не забувати, що робив кілька хвилин тому. «Якщо ти хочеш, щоб розумна система справді працювала, вона не повинна забувати, що робила п’ять хвилин тому», — наголошує він.

Це вміння — ключ до автоматизації когнітивної праці.

Петро Відден, незалежний дослідник, дає більш наочне пояснення. Він опублікував відкритий алгоритм для «Покемона» на основі традиційного AI. «AI майже все знає про «Покемона», — каже він, — навчившись на масиві людських даних, воно чітко знає правильні відповіді. Але під час виконання воно виглядає незграбним і повільним.»

У грі ця «знання, але неспроможність діяти» проблема посилюється: модель може знати, що потрібно знайти предмет, але не може стабільно орієнтуватися на двовимірній карті; знає, що потрібно поговорити з NPC, але у процесі руху по пікселях постійно помиляється.

За розвитком здібностей: нерозв’язані «інстинктивні» розриви

Попри все, прогрес AI очевидний. Claude Opus 4.5 значно покращився у самозаписі та візуальному розумінні, що дозволило йому просуватися у грі далі. Gemini 3 Pro пройшов «Покемон синій», а потім і «Покемон кристал», не програвши жодної битви — такого раніше не було у Gemini 2.5 Pro.

Разом із цим, Anthropic випустила набір інструментів Claude Code, що дозволяє моделі писати і запускати власний код. Його вже використовують у ретро-іграх, таких як «Passenger Tycoon», і стверджують, що він може успішно керувати віртуальним парком розваг.

Ці приклади показують несподівану реальність: AI з правильним набором інструментів може бути дуже ефективним у програмуванні, бухгалтерії, юридичному аналізі та інших знаннях, хоча й залишається слабким у завданнях, що вимагають миттєвої реакції.

Експерименти з «Покемоном» також виявили цікаву особливість: моделі, навчені на людських даних, демонструють поведінку, схожу на людську.

У технічному звіті Gemini 2.5 Pro Google зазначає, що коли система імітує «стан паніки», наприклад, коли покемон майже знепритомніє, якість її логіки значно знижується.

Коли ж Gemini 3 Pro у кінці проходить «Покемон синій», він залишає собі нотатку, що не є обов’язковою для завдання: «Щоб красиво завершити, я повернуся додому, щоб останній раз поговорити з мамою і вийти на пенсію».

На думку Джоела Чжана, ця поведінка несподівана і має людські риси емоційного проєктування.

Неможливий «цифровий Марш» AI — і не лише у «Покемоні»

«Покемон» — не єдиний приклад. У прагненні створити загальний штучний інтелект (AGI) розробники виявили, що навіть якщо AI успішно проходить медичні іспити, у складних іграх, таких як «NetHack», «Minecraft», «StarCraft II», він все одно стикається з непереборними «прірвами».

«NetHack»: безодня правил

Ця гра 80-х років — справжній кошмар для дослідників AI. Вона має сильну випадковість і механізм «постійної смерті». Facebook AI Research виявили, що навіть якщо модель може писати код, у «NetHack», що вимагає логіки і довгострокового планування, вона працює гірше за початківця.

«Minecraft»: зникле відчуття цілі

Хоча AI вже може робити дерев’яні кирки і навіть добувати діаманти, «перемогти» Ендера-дракона — ще фантазія. У відкритому світі AI часто забуває свою ціль під час десятків годин збору ресурсів або губиться у складних навігаціях.

«StarCraft II»: розрив між універсальністю і спеціалізацією

Хоча моделі, натреновані для змагань, перемагали професіоналів, якщо дати Claude або Gemini керувати через візуальні команди, вони швидко зазнають краху. У боротьбі з «туманом війни» і балансом між мікро- і макроуправлінням універсальні моделі ще слабкі.

«Passenger Tycoon»: дисбаланс між мікро- і макроуправлінням

Управління парком розваг вимагає слідкувати за тисячами відвідувачів. Навіть Claude Code, що має базові навички управління, у разі великих фінансових криз або аварій швидко втомлюється. Будь-яка «прогалина» у логіці може призвести до банкрутства.

«Elden Ring» і «Sekiro»: розрив фізичної реакції

Ці ігри з активною фізикою дуже складні для AI. Візуальна обробка затримується, і коли AI ще «думає», як діяти бос, персонаж уже мертвий. Мілісекундна реакція — природний ліміт для взаємодії моделі.

Чому «Покемон» став іспитом для AI?

Зараз «Покемон» поступово стає неофіційним, але дуже переконливим тестом для оцінки AI.

Розробники, такі як Anthropic, OpenAI і Google, мають трансляції з сотнями тисяч коментарів у Twitch. У технічних звітах Google детально описує прогрес Gemini у грі, а Пічаї на конференції I/O говорив про цей успіх. Anthropic навіть створила виставковий стенд «Claude грає у Покемон» на галузевих конференціях.

«Ми — група технічних ентузіастів», — зізнається керівник AI-команди Anthropic Девід Герші. Але він наголошує, що це не лише розвага.

На відміну від одноразових тестів, «Покемон» дозволяє довго відслідковувати логіку, рішення і цілі моделі, що ближче до реальних складних завдань у світі.

Поки що виклики AI у «Покемоні» тривають. Але саме ці повторювані труднощі чітко окреслюють межі здатностей загального штучного інтелекту.

Переглянути оригінал
Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.
Прокоментувати
0/400
Немає коментарів