世界最高峰の大規模モデルでも「ポケモン」をクリアできない：これらのゲームはAIの悪夢

PANews

2026-01-27 00:31:54

作者：郭晓静，腾讯科技

編集｜徐青陽

世界トップクラスのAIモデルは医師免許試験に合格でき、複雑なコードも書き、数学コンテストで人間の専門家を打ち負かすことさえできるが、子供向けゲーム《ポケモン》では何度も挫折している。

この注目すべき試みは2025年2月に始まった。当時、Anthropicの研究者が「Claudeが《ポケモン赤》をプレイする」Twitchライブ配信を行い、Claude Sonnet 3.7のリリースに合わせたものだ。

2000人の視聴者がライブ配信に殺到した。公共チャットでは、観客たちがClaudeに助言を送り、応援し、この配信は次第にAIの能力を巡る公開観察へと変貌した。

Sonnet3.7は《ポケモン》を遊べるレベルにはなったが、「遊べる」＝「勝てる」ではない。重要な局面で数十時間止まったり、子供プレイヤーでも犯さないような初歩的なミスをしたりする。

これはClaudeの初めての挑戦ではない。

初期バージョンのパフォーマンスはさらに悲惨だった。地図上を目的もなく徘徊したり、無限ループに陥ったり、初心者村から出られないものもあった。

能力が著しく向上したClaude Opus 4.5でも、理解に困るミスが見られることがある。一例として、「道場の外」をぐるぐる回り続けて4日間も入れなかったこともあったが、その原因は単に交差点に立つ木を倒す必要性に気づかなかっただけだった。

子供向けゲームがなぜAIの“滑り台”になったのか？

それは、《ポケモン》が求める能力が、まさに現代AIに最も欠けているものだからだ。明確な指示のないオープンワールドでの継続的な推論、数時間前の決定を記憶し理解すること、暗黙の因果関係を理解すること、数百の可能な行動の中から長期的な計画を立てること。

これらは8歳の子供にとっては容易なことだが、「人類を超越する」と謳うAIモデルにとっては越えられない壁だ。

01 ツールセットの差が勝敗を決める？

それに比べて、GoogleのGemini 2.5 Proは2025年5月に難易度の高い《ポケモン》ゲームをクリアした。GoogleのCEOサンダー・ピチャイは、公開の場で冗談半分に、「我々は『人工ポケモン知能』の開発に一歩踏み出した」と述べた。

しかし、この結果は単にGeminiモデルがより「賢い」からだけでは説明できない。

重要な違いは、モデルが使用するツールセットにある。Geminiの《ポケモン》ライブ配信を担当する独立開発者ジョエル・チャンは、ツールセットを「アイアンマンのアーマー」に例えた。AIは素手でゲームに入るのではなく、多様な外部能力を呼び出せるシステムに置かれている。

Geminiのツールセットは、ゲーム画面をテキストに変換するなど、多くのサポートを提供し、視覚理解の弱点を補い、カスタマイズ可能な謎解きやルート計画ツールも備える。一方、Claudeが使うツールセットはよりシンプルで、その試みはモデル自身の感知、推論、実行の実力をより直接的に反映している。

日常的なタスクでは、この差はあまり目立たない。

ユーザーがチャットボットにネット検索を要するリクエストを出すとき、モデルは自動的に検索ツールを呼び出す。しかし、《ポケモン》のような長期的なタスクでは、ツールセットの差が勝敗を左右するほど拡大する。

02 ターン制が露呈させるAIの「長期記憶」短所

《ポケモン》は厳格なターン制で、即時反応を必要としないため、AIのテストに最適な「訓練場」となっている。AIは各操作で、現在の画面、目標のヒント、選択可能な操作を組み合わせて推論し、「Aボタンを押す」といった明確な指示を出すだけでよい。

これは大規模言語モデルが最も得意とするインタラクション形式の一つだ。

問題は時間軸の「断絶」にある。Claude Opus 4.5はすでに500時間以上稼働し、約17万歩を実行しているが、各操作後の再初期化の制約により、モデルは狭いコンテキストウィンドウ内でしか手掛かりを見つけられない。この仕組みは、まるで付箋紙で記憶を維持する忘れっぽい人のようで、断片化した情報の中を循環し続け、真の人間プレイヤーのように、量の変化から質の変化へと経験を跨ぐことができない。

チェスや囲碁などの分野では、AIはすでに人類を超えているが、これらは特定のタスクに高度にカスタマイズされたシステムだ。対して、Gemini、Claude、GPTは汎用モデルとして、試験やプログラミングコンテストで頻繁に人間を凌駕する一方、子供向けゲームでは何度も挫折している。

このギャップ自体が非常に示唆に富む。

ジョエル・チャンは、AIの核心的な課題は、長時間にわたって単一の明確な目標を持続的に実行できないことにあると考える。「もしAIに本当の仕事をさせたいなら、五分前に何をしたかを忘れてはいけない」と指摘する。

そして、その能力こそが、認知労働の自動化を実現するために不可欠な前提だ。

独立研究者のピーター・ウィデンは、より直感的な説明を行う。彼は従来型AIを用いた《ポケモン》のアルゴリズムをオープンソース化したことがある。「AIは《ポケモン》についてほとんど何でも知っている」と彼は言う。「大量の人間データで訓練されており、正解も理解している。しかし、実行段階になると、非常に不器用になる。」

ゲーム内では、「知っているができない」断絶が絶えず拡大する。モデルはアイテムを探す必要があることは知っていても、2次元の地図上で安定して位置を特定できなかったり、NPCと会話すべきだとわかっていても、ピクセル単位の動きで何度も失敗したりする。

03 能力進化の裏側：越えられない「本能」の溝

それでも、AIの進歩は明らかだ。Claude Opus 4.5は自己記録と視覚理解の面で前世代より格段に優れ、ゲームの進行もより遠くまで進めることができる。Gemini 3 Proは《ポケモン青》をクリアした後、より難易度の高い《ポケモン金》もクリアし、全戦闘未敗で終えた。これはGemini 2.5 Proでは実現し得なかったことだ。

また、AnthropicがリリースしたClaude Codeツールセットは、モデルが自らコードを書き、実行できるようにし、《シムシティ》などのレトロゲームの管理にも使われているとされる。これにより、仮想テーマパークの運営も成功しているという。

これらの事例は、直感に反する現実を示している。適切なツールセットを備えたAIは、ソフトウェア開発、会計、法律分析などの知識労働において非常に高い効率を発揮する可能性があるが、リアルタイム反応を必要とするタスクには依然として難しさが残る。

《ポケモン》の実験は、もう一つの興味深い現象も明らかにしている。人間のデータで訓練されたモデルは、人間に近い行動特性を示すことだ。

Googleの技術報告によると、Gemini 2.5 Proは、「パニック状態」を模擬したとき、例えばポケモンが倒れそうになるとき、モデルの推論の質が著しく低下するという。

そして、最終的にGemini 3 Proが《ポケモン青》をクリアしたとき、自己メモとして「詩的に終わるために、最初の家に戻り、母親と最後の会話をし、キャラクターを引退させる」との一文を残した。

ジョエル・チャンは、この行動は予想外であり、何らかの人間的な感情投影も含まれていると考えている。

04 AIの越えられない「デジタル長征」、それは《ポケモン》だけではない

《ポケモン》は例外ではない。汎用人工知能（AGI）の追求において、開発者たちは、AIが司法試験でトップを取れるとしても、次のような複雑なゲームに直面したとき、依然として越えられない「滑り台」に直面している。

《NetHack》：ルールの深淵

80年代のダンジョンゲームであり、AI研究界の“悪夢”だ。高いランダム性と「永久死」メカニズムを持つ。Facebook AI Researchは、モデルがコードを書けても、《NetHack》のように常識的な論理や長期計画を必要とする場面では、人間の初心者よりもはるかに劣ることを発見した。

《マインクラフト》：消えた目的意識

木のツルハシを作り、ダイヤモンドを掘ることはできても、「エンダードラゴンを倒す」ことは幻想にすぎない。オープンワールドでは、資源収集の長時間にわたる過程で「最初の目的」を忘れたり、複雑なナビゲーションで迷子になったりする。

《スタークラフトII》：汎用性と専門性の断絶

カスタムモデルはプロプレイヤーを倒したこともあるが、ClaudeやGeminiに視覚指示を直接与えて操作させると、瞬時に崩壊する。戦争の霧の不確実性や、微操作とマクロのバランスを取ることにおいて、汎用モデルは未だに苦手だ。

《シムシティ》：ミクロとマクロの不均衡

テーマパークの管理には、何千人もの来場者の状態を追跡する必要がある。Claude Codeのような初歩的な管理能力を持つモデルでも、大規模な財務崩壊や突発事故に対応する際には疲弊しやすい。推論の断絶が一度でも起きると、テーマパークは破産する。

《エルデンリング》や《仁王》：物理フィードバックの溝

これらの激しいアクションゲームは、AIにとって非常に扱いにくい。現在の視覚解析の遅延により、AIがボスの動作を「考えている」間に、キャラクターはすでに倒れていることが多い。ミリ秒単位の反応が求められるため、モデルのインタラクションロジックの自然な上限となっている。

05 なぜ《ポケモン》がAIの試金石となったのか？

今や、《ポケモン》はAI評価の分野で、非公式ながらも非常に説得力のあるテスト基準となりつつある。

Anthropic、OpenAI、Googleのモデルは、Twitch上の関連ライブ配信で数十万のコメントを集めている。Googleは技術報告書でGeminiのゲーム進展を詳細に記録し、ピチャイはI/O開発者会議でこの成果に言及した。Anthropicも業界会議で「Claudeがポケモンを遊ぶ」展示コーナーを設けている。

「我々は超ハイテク愛好者の集まりだ」と、AnthropicのAI担当者ダビッド・ハーシーは率直に語る。しかし、彼は強調する。「これは単なる娯楽ではない。」

従来の一問一答型のベンチマークと異なり、《ポケモン》は長時間にわたり、モデルの推論、意思決定、目標推進の過程を追跡できる。これは、現実世界で人間がAIに期待する複雑なタスクにより近い。

現時点で、AIの《ポケモン》における挑戦は続いている。しかし、これらの繰り返される困難こそが、汎用人工知能が未だ越えられていない能力の境界を明確に描き出している。

特約編集の無忌も本稿に寄稿している

原文表示

免責事項：このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

0/400

コメントなし