Хоча провідні світові моделі штучного інтелекту демонструють високі результати у медичних іспитах, програмуванні та інших професійних сферах, вони неодноразово зазнають поразки у дитячій грі «Покемон», що викриває їхні ключові недоліки у довгостроковому мисленні, пам’яті та плануванні. Ця стаття походить із публічного акаунту Tencent Tech, автор —郭靜曉.
(Передісторія: я граю у війни з AI: GPT o3 — майстер інтриг, DeepSeek — фанат битв, Claude — як дурна білочка)
(Додатковий фон: Google «Gemini 2.0» вже тут! Запуск трьох типів AI-агентів: складні завдання, ігри, програмування)
Зміст статті
Світові лідери AI можуть скласти медичний іспит, писати складний код і навіть перемагати людей у математичних змаганнях, але у дитячій грі «Покемон» вони знову зазнають поразки.
Ця захоплююча спроба почалася у лютому 2025 року, коли дослідник Anthropic запустив трансляцію «Claude грає у «Покемон червоний»» на Twitch, що співпало з випуском Claude Sonnet 3.7.
У трансляції брали участь 2000 глядачів. У чаті вони радили та підтримували Claude, і з часом ця трансляція перетворилася на публічне спостереження за можливостями AI.
Sonnet 3.7 — це вже «грає» у «Покемон», але «грає» не означає «перемагає». Він застрягає у ключових моментах на десятки годин і робить помилки, яких навіть дитячі гравці не допустили б.
Це не перший досвід Claude.
Ранні версії були ще гіршими: деякі блукали без цілі по карті, інші застрягали у нескінченних циклах, а деякі навіть не могли вийти з початкового села.
Навіть Claude Opus 4.5, з помітно покращеними можливостями, часом робить дивні помилки. Одного разу він цілий чотири дні кружляв навколо «посту» і так і не зайшов у нього, бо просто не помітив, що потрібно зрубати дерево, що заважає на шляху.
Чому дитяча гра стала провалом для AI?
Бо «Покемон» вимагає саме тих навичок, яких сучасний AI найсильніше бракує: постійного мислення у відкритому світі без чітких команд, пам’яті рішень кілька годин тому, розуміння прихованих причинно-наслідкових зв’язків, довгострокового планування серед сотень можливих дій.
Ці завдання легко для 8-річної дитини, але для AI, що прагне «перевершити людину», — це неподоланна прірва.
У порівнянні з цим, Google Gemini 2.5 Pro у травні 2025 року успішно пройшов складну гру «Покемон». Генеральний директор Google Сундар Пічаї навіть у публічних виступах жартома зазначив, що компанія зробила крок у створенні «штучного розуму покемона».
Однак цей результат не можна пояснити лише тим, що модель Gemini «розумніша».
Головна різниця — у наборах інструментів, які використовує модель. Незалежний розробник Джоел Чжан порівнює їх із «бронекостюмом Железної людини»: AI не входить у гру голим, а знаходиться у системі, що може викликати різні зовнішні можливості.
Набір інструментів Gemini пропонує більше підтримки, наприклад, перетворює ігровий екран у текст, щоб компенсувати слабкість у візуальному розумінні, і має інструменти для кастомного розв’язання головоломок і планування маршрутів. У порівнянні Claude використовує більш простий набір, і його спроби відображають реальні можливості моделі у сприйнятті, мисленні та виконанні.
У повсякденних завданнях ці різниці майже непомітні.
Коли користувачі просять чат-бота зробити пошук у мережі, модель автоматично викликає пошуковий інструмент. Але у довготривалих завданнях, таких як «Покемон», різниця у наборах інструментів стає вирішальною.
Оскільки «Покемон» — це жорстка покрокова гра без необхідності миттєво реагувати, вона стала ідеальним «полем для тренувань» AI. У кожному кроці AI потрібно поєднати поточний екран, цільові підказки та доступні дії для логічного висновку, наприклад, натиснути «A».
Це саме той тип взаємодії, у якому великі мовні моделі найкраще проявляють себе.
Проблема у часі — у «розриві» між кроками. Хоча Claude Opus 4.5 уже працює понад 500 годин і зробив близько 170 000 кроків, через перезавантаження після кожного кроку модель може працювати лише у дуже вузькому контексті. Це робить її схожою на людину, що пам’ятає лише короткі фрагменти, і не здатною перейти від кількісних змін до якісних перетворень досвіду.
У шахах і го AI вже перевершили людину, але ці системи — високотехнологічні рішення для конкретних завдань. У порівнянні з ними, універсальні моделі Gemini, Claude і GPT, що часто перемагають у іспитах і змаганнях з програмування, у дитячих іграх зазнають поразки.
Ця контрастність сама по собі багато чого навчає.
На думку Джоела Чжана, головна проблема AI — у неспроможності довго зберігати цілі та не забувати, що робив кілька хвилин тому. «Якщо ти хочеш, щоб розумна система справді працювала, вона не повинна забувати, що робила п’ять хвилин тому», — наголошує він.
Це вміння — ключ до автоматизації когнітивної праці.
Петро Відден, незалежний дослідник, дає більш наочне пояснення. Він опублікував відкритий алгоритм для «Покемона» на основі традиційного AI. «AI майже все знає про «Покемона», — каже він, — навчившись на масиві людських даних, воно чітко знає правильні відповіді. Але під час виконання воно виглядає незграбним і повільним.»
У грі ця «знання, але неспроможність діяти» проблема посилюється: модель може знати, що потрібно знайти предмет, але не може стабільно орієнтуватися на двовимірній карті; знає, що потрібно поговорити з NPC, але у процесі руху по пікселях постійно помиляється.
Попри все, прогрес AI очевидний. Claude Opus 4.5 значно покращився у самозаписі та візуальному розумінні, що дозволило йому просуватися у грі далі. Gemini 3 Pro пройшов «Покемон синій», а потім і «Покемон кристал», не програвши жодної битви — такого раніше не було у Gemini 2.5 Pro.
Разом із цим, Anthropic випустила набір інструментів Claude Code, що дозволяє моделі писати і запускати власний код. Його вже використовують у ретро-іграх, таких як «Passenger Tycoon», і стверджують, що він може успішно керувати віртуальним парком розваг.
Ці приклади показують несподівану реальність: AI з правильним набором інструментів може бути дуже ефективним у програмуванні, бухгалтерії, юридичному аналізі та інших знаннях, хоча й залишається слабким у завданнях, що вимагають миттєвої реакції.
Експерименти з «Покемоном» також виявили цікаву особливість: моделі, навчені на людських даних, демонструють поведінку, схожу на людську.
У технічному звіті Gemini 2.5 Pro Google зазначає, що коли система імітує «стан паніки», наприклад, коли покемон майже знепритомніє, якість її логіки значно знижується.
Коли ж Gemini 3 Pro у кінці проходить «Покемон синій», він залишає собі нотатку, що не є обов’язковою для завдання: «Щоб красиво завершити, я повернуся додому, щоб останній раз поговорити з мамою і вийти на пенсію».
На думку Джоела Чжана, ця поведінка несподівана і має людські риси емоційного проєктування.
«Покемон» — не єдиний приклад. У прагненні створити загальний штучний інтелект (AGI) розробники виявили, що навіть якщо AI успішно проходить медичні іспити, у складних іграх, таких як «NetHack», «Minecraft», «StarCraft II», він все одно стикається з непереборними «прірвами».
Ця гра 80-х років — справжній кошмар для дослідників AI. Вона має сильну випадковість і механізм «постійної смерті». Facebook AI Research виявили, що навіть якщо модель може писати код, у «NetHack», що вимагає логіки і довгострокового планування, вона працює гірше за початківця.
Хоча AI вже може робити дерев’яні кирки і навіть добувати діаманти, «перемогти» Ендера-дракона — ще фантазія. У відкритому світі AI часто забуває свою ціль під час десятків годин збору ресурсів або губиться у складних навігаціях.
Хоча моделі, натреновані для змагань, перемагали професіоналів, якщо дати Claude або Gemini керувати через візуальні команди, вони швидко зазнають краху. У боротьбі з «туманом війни» і балансом між мікро- і макроуправлінням універсальні моделі ще слабкі.
Управління парком розваг вимагає слідкувати за тисячами відвідувачів. Навіть Claude Code, що має базові навички управління, у разі великих фінансових криз або аварій швидко втомлюється. Будь-яка «прогалина» у логіці може призвести до банкрутства.
Ці ігри з активною фізикою дуже складні для AI. Візуальна обробка затримується, і коли AI ще «думає», як діяти бос, персонаж уже мертвий. Мілісекундна реакція — природний ліміт для взаємодії моделі.
Зараз «Покемон» поступово стає неофіційним, але дуже переконливим тестом для оцінки AI.
Розробники, такі як Anthropic, OpenAI і Google, мають трансляції з сотнями тисяч коментарів у Twitch. У технічних звітах Google детально описує прогрес Gemini у грі, а Пічаї на конференції I/O говорив про цей успіх. Anthropic навіть створила виставковий стенд «Claude грає у Покемон» на галузевих конференціях.
«Ми — група технічних ентузіастів», — зізнається керівник AI-команди Anthropic Девід Герші. Але він наголошує, що це не лише розвага.
На відміну від одноразових тестів, «Покемон» дозволяє довго відслідковувати логіку, рішення і цілі моделі, що ближче до реальних складних завдань у світі.
Поки що виклики AI у «Покемоні» тривають. Але саме ці повторювані труднощі чітко окреслюють межі здатностей загального штучного інтелекту.