世界最高峰の大規模モデルでも『ポケモン』を突破できない：これらのゲームはAIの悪夢

動區BlockTempo

2026-01-27 07:05:35

儘管全球トップAIモデルは医学試験、コード作成などの専門分野で優れたパフォーマンスを示している一方で、『ポケモン』のような子供向けゲームでは度々挫折し、長期推論、記憶、計画の核心的な短所を露呈している。本稿は騰訊科技公式アカウント、著者：郭靜曉によるものである。
（前提：AIを使って戦争ゲームをプレイする：GPT o3は策士の大魔王、DeepSeekは戦争狂、Claudeはまるでおバカな白純）
（補足：Google「Gemini 2.0」登場！3種類のAIエージェントをリリース：複雑なタスク、ゲーム、プログラミング）

本文目次

ツールセットの差が勝敗を決める？
ターン制ゲームで露呈するAIの「長期記憶」短所
能力進化の背後：越えられなかった「本能」の溝
AIが越えられない「デジタル長征」、それは『ポケモン』だけではない
- 『NetHack』：ルールの深淵
- 『マインクラフト』：消えた目標感
- 『スタークラフト II』：汎用性と専門性の断絶
- 『乗客大亨』：ミクロとマクロの不均衡
- 『エルデンリング』と『隻狼』：物理フィードバックの溝
なぜ『ポケモン』がAIの試金石となるのか？

世界のトップAIモデルは医師免許試験に合格し、複雑なプログラムも書き、数学コンテストで人類の専門家を打ち負かすこともできるが、『ポケモン』という子供向けゲームでは度々挫折している。

この注目の試みは2025年2月に始まった。当時、Anthropicの研究者が「Claudeが『ポケモン赤』をプレイする」Twitchライブ配信を行い、Claude Sonnet 3.7のリリースに合わせたものだ。

2000人の視聴者がライブに殺到し、公共チャットでは観客たちがClaudeに助言を送ったり応援したりし、次第にこのライブはAIの能力を観察する公開イベントへと変貌した。

Sonnet 3.7は『ポケモン』を遊べるレベルにはあるが、「遊べる」＝「勝てる」ではない。重要な局面で数十時間足止めされたり、子供のプレイヤーも犯さないような低レベルのミスを繰り返す。

これはClaudeの初めての挑戦ではない。

初期バージョンのパフォーマンスはさらに悲惨だった。地図上を目的もなく徘徊したり、無限ループに陥ったり、新人村から出られないこともあった。

能力が著しく向上したClaude Opus 4.5でも、不可解なミスは起きる。あるときは「道場の外」をぐるぐる回り続けて4日間も入れず、理由はただ、通路に立つ木を倒す必要性に気づかなかっただけだった。

子供向けゲームがなぜAIの足枷となるのか？

それは、『ポケモン』が求める能力こそ、現代AIに最も欠如しているものだからだ。明確な指示がなくともオープンワールドで推論を続け、数時間前の決定を記憶し、潜在的な因果関係を理解し、何百もの行動候補の中から長期的な計画を立てる。

これらは8歳児にとっては容易なことだが、「人類を超越する」ことを掲げるAIモデルにとっては越えられない巨大な溝だ。

ツールセットの差が勝敗を決める？

比較として、GoogleのGemini 2.5 Proは2025年5月に難度相当の『ポケモン』ゲームをクリアした。GoogleのCEOサンダー・ピチャイは公開の場で冗談交じりに、「我々は『人工ポケモン知能』の一歩を踏み出した」と述べた。

しかし、この結果は単にGeminiモデルがより「賢い」からだけでは説明できない。

重要なのは、モデルが使うツールセットの違いだ。Geminiの『ポケモン』ライブ配信を担当した独立開発者ジョエル・チャンは、ツールセットを「アイアンマンのアーマー」に例えた。AIは素手でゲームに入るのではなく、多様な外部能力を呼び出せるシステムに置かれている。

Geminiのツールセットは、ゲーム画面をテキストに変換するなどの支援を提供し、視覚理解の弱点を補い、カスタマイズされた謎解きやルート計画ツールも備える。一方、Claudeが使うツールセットはよりシンプルで、その試行もより直接的にモデルの感知、推論、実行の実力を反映している。

日常のタスクでは、この差はあまり顕著ではない。

ユーザーがチャットボットにインターネット検索を伴うリクエストを出すとき、モデルは自動的に検索ツールを呼び出す。しかし、『ポケモン』のような長期タスクでは、ツールセットの差が勝敗を左右するほど拡大する。

回合制ゲームで露呈するAIの「長期記憶」短所

『ポケモン』は厳格なターン制で即時反応を必要としないため、AIの「訓練場」として最適だ。AIは各ターンで、現在の画面、目標のヒント、選択可能な操作を組み合わせて推論し、「Aボタンを押す」といった明確な指示を出すだけでよい。

これは大規模言語モデルが最も得意とするインタラクション形式の一つだ。

しかし、問題は時間軸の「断絶」にある。Claude Opus 4.5は累計で500時間以上稼働し、約17万のステップを実行したが、各操作後のリセットにより、モデルは狭いコンテキストウィンドウ内でしか手掛かりを見つけられない。この仕組みは、まるで付箋紙で記憶を維持する記憶喪失者のように、断片化した情報の中を循環し続け、真の人間のプレイヤーのように、量から質への経験の飛躍を実現できない。

チェスや囲碁の分野では、AIはすでに人類を超えているが、これらは特定のタスクに高度にカスタマイズされたシステムだ。対して、Gemini、Claude、GPTは汎用モデルとして、試験やプログラミングコンテストで人類を何度も打ち負かす一方で、子供向けゲームでは度々挫折している。

この逆説こそ、非常に示唆に富む。

ジョエル・チャンによれば、AIの核心的な課題は、長時間にわたり単一の明確な目標を持続的に実行できないことにある。「知性体に本当の仕事をさせたいなら、五分前に何をしたかを忘れてはいけない」と彼は指摘する。

この能力こそ、認知労働の自動化を実現するために不可欠な前提だ。

独立研究者ピーター・ウィデンは、より直感的な説明を行っている。彼は従来型AIを用いた『ポケモン』のアルゴリズムをオープンソース化したことがある。「AIは『ポケモン』についてほとんど何でも知っている」と彼は述べる。「大量の人間のデータ上で訓練されており、正解も理解している。しかし、実行段階になると、途端に不器用になる。」

ゲーム内では、「知っているができない」断層が拡大し続ける。モデルは特定のアイテムを探す必要があることは知っているが、2次元マップ上で安定して位置を特定できない。NPCと会話すべきだと知っているが、ピクセル単位の移動で何度も失敗する。

能力進化の背後：越えられなかった「本能」の溝

それでも、AIの進歩は明らかだ。Claude Opus 4.5は自己記録と視覚理解において前世代より著しく向上し、ゲームの進行もより遠くへと進めるようになった。Gemini 3 Proは『ポケモン青』をクリアした後、より難度の高い『ポケモン金』も無敗でクリアし、これまで達成できなかった。

同時に、AnthropicのClaude Codeツールセットは、モデルに自らコードを書き実行させることを可能にし、『乗客大亨』などのレトロゲームに使われている。これにより、仮想テーマパークの管理も成功していると伝えられる。

これらの事例は、直感に反する現実を示している。適切なツールセットを備えたAIは、ソフトウェア開発、会計、法律分析などの知識作業において極めて高い効率を発揮できるが、即時反応を必要とするタスクには依然として難しさが残る。

『ポケモン』の実験は、もう一つの興味深い現象も明らかにしている。人間のデータで訓練されたモデルは、人間に近い行動特性を示す。

Googleの技術報告によると、Gemini 2.5 Proは、「パニック状態」を模擬したとき、例えばポケモンが瀕死状態になると、推論の質が著しく低下する。

また、最終的に『ポケモン青』をクリアしたとき、Gemini 3 Proは自らのメモとして次のような非任務必須の備考を残した。「詩的に終わるために、最初の家に戻り、母親と最後の会話をし、キャラクターを引退させる。」

ジョエル・チャンは、この行動は予想外であり、ある種の人間的な感情投影も含んでいると考えている。

AIが越えられない「デジタル長征」、それは『ポケモン』だけではない

『ポケモン』は例外ではない。汎用人工知能（AGI）を追求する道のりにおいて、AIは司法試験でトップに立てても、次のような複雑なゲームに直面すると、依然として越えられない「足止め」に遭遇している。

『NetHack』：ルールの深淵

この80年代のダンジョンゲームはAI研究界の「悪夢」だ。ランダム性が非常に高く、「永久死」システムもある。Facebook AIリサーチは、モデルがコードを書けても、『NetHack』のように常識的な論理や長期計画を必要とする場面では、人間の初心者よりも遥かに劣ることを発見した。

『マインクラフト』：消えた目標感

AIは木の斧を作り、ダイヤモンドを掘ることはできるが、「エンドラ討伐」は未だ幻想だ。オープンワールドでは、資源収集の長時間にわたる過程で「最初の目的」を忘れたり、複雑なナビゲーションで迷子になったりする。

『スタークラフト II』：汎用性と専門性の断絶

カスタムモデルはプロプレイヤーを倒したこともあるが、ClaudeやGeminiに視覚指示だけで操作させると、すぐに崩壊する。戦争の霧の中の不確実性や、微操作とマクロのバランスを取ることは、汎用モデルには依然難しい。

『乗客大亨』：ミクロとマクロの不均衡

テーマパークの管理には、何千人もの観光客の状態を追跡する必要がある。Claude Codeは初歩的な管理能力を持つが、大規模な財務崩壊や突発事故に対応すると、すぐに疲弊する。推論の断絶が一つでも起きれば、テーマパークは破産する。

『エルデンリング』と『隻狼』：物理フィードバックの溝

これらの高アクション性のゲームは、AIにとって非常に扱いにくい。現在の視覚解析の遅延は、AIがボスの動作を「考えている」間にキャラクターがすでに倒れていることを意味し、ミリ秒単位の反応が、モデルのインタラクションロジックの自然な上限となっている。

なぜ『ポケモン』がAIの試金石となるのか？

今や、『ポケモン』はAI評価の非公式かつ説得力のある基準になりつつある。

Anthropic、OpenAI、Googleのモデルは、Twitchのライブ配信で数十万のコメントを集めている。Googleは技術報告でGeminiのゲーム進行を詳細に記録し、ピチャイはI/O開発者会議でこの成果に言及した。Anthropicも業界会議で「Claudeがポケモンをプレイする」展示コーナーを設置している。

「我々は超一流の技術愛好者の集まりだ」と、AnthropicのAI責任者デイビッド・ハーシーは率直に語る。しかし、これは単なる娯楽ではない。

従来の一問一答型の基準と異なり、『ポケモン』は長時間にわたりモデルの推論、意思決定、目標推進の過程を追跡できる点で、現実世界の複雑なタスクに近い。

現時点でも、AIの『ポケモン』における挑戦は続いている。しかし、これらの繰り返される困難こそが、汎用人工知能が未だ越えられていない能力の境界を明確に描き出している。

原文表示

免責事項：このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

0/400

コメントなし