全球頂尖大模型，通關不了《寶可夢》：這些遊戲都是AI的噩夢

動區BlockTempo

2026-01-27 07:05:35

儘管全球頂尖AI模型能在醫學考試、程式碼編寫等專業領域表現出色，卻在《寶可夢》這類兒童遊戲中屢屢受挫，暴露了其在長期推理、記憶和規劃方面的核心短板。本文源自 騰訊科技公眾號，作者為郭靜曉。
（前情提要：我用 AI 玩戰爭遊戲：GPT o3 是心機大魔王、DeepSeek 戰爭狂人、Claude 則像個傻白甜）
（背景補充：Google「Gemini 2.0」來了！推出三種AI代理：複雜任務、遊戲、程式設計）

本文目錄

工具集差距決定成敗？
回合制暴露AI的「長期記憶」短板
能力演進背後：未跨越的「本能」鴻溝
AI難以逾越的「數位長征」，遠不止《寶可夢》
- 《NetHack》：規則的深淵
- 《我的世界》：消失的目標感
- 《星海爭霸 II》：通用性與專業的斷層
- 《乘客大亨》：微觀與宏觀的失衡
- 《艾爾登法環》與《隻狼》：物理回饋的鴻溝
為何《寶可夢》成為AI試金石？

世界頂尖的AI模型可以通過醫學執照考試，可以編寫複雜程式碼，甚至能在數學競賽中擊敗人類專家，但是卻在一款兒童遊戲《寶可夢》中屢屢受挫。

這場引人矚目的嘗試始於2025年2月，當時Anthropic的一名研究人員推出了「Claude玩《寶可夢紅》」的Twitch直播，以此配合Claude Sonnet 3.7的發布。

2000名觀眾湧入直播間。在公共聊天區，觀眾們為Claude出謀劃策、加油打氣，使這場直播逐漸演變為一場圍繞AI能力展開的公開觀察。

Sonet3.7只能說是「會玩」《寶可夢》了，但「會玩」不等於「能贏」。它會在關鍵節點卡住數十小時，還會做出連兒童玩家都不會犯的低級錯誤。

這不是Claude第一次嘗試。

早期版本的表現更加災難：有的在地圖中毫無目標地遊蕩，有的陷入無限迴圈，更多的甚至無法走出新手村。

即便是能力顯著提升的Claude Opus 4.5，仍會出現令人費解的失誤。有一次，它在「道館外」繞圈整整四天，卻始終未能進入，原因僅僅是沒意識到需要砍倒擋在路口的一棵樹。

一款兒童遊戲，為何成了AI的滑鐵盧？

因為《寶可夢》要求的，恰恰是當今AI最缺乏的能力：在沒有明確指令的開放世界中持續推理、記憶數小時前的決策、理解隱含的因果關係、在數百個可能的行動中做出長期規劃。

這些事情對8歲孩子來說輕而易舉的事，對標榜「超越人類」的AI模型卻是不可逾越的鴻溝。

工具集差距決定成敗？

相比之下，谷歌的Gemini 2.5 Pro在2025年5月成功通關了一款難度相當的《寶可夢》遊戲。谷歌執行長桑達爾·皮查伊（Sundar Pichai）甚至在公開場合半開玩笑地表示，公司在打造「人工寶可夢智慧」方面邁出了一步。

然而，這一結果並不能簡單歸因於Gemini模型本身更「聰明」。

關鍵差異在於模型所使用的工具集。負責營運Gemini《寶可夢》直播的獨立開發者喬爾·張（Joel Zhang）將工具集比喻為一套「鋼鐵人裝甲」：AI並非赤手空拳進入遊戲，而是被置於一個可調用多種外部能力的系統中。

Gemini的工具集提供了更多支援，例如將遊戲畫面轉寫為文字，從而彌補模型在視覺理解上的弱點，並提供客製化的解謎與路徑規劃工具。相比之下，Claude所使用的工具集更為簡約，它的嘗試也更直接地反映出模型自身在感知、推理與執行上的真實能力。

在日常任務中，這類差異並不明顯。

當使用者向聊天機器人提出需聯網查詢的請求時，模型同樣會自動調用搜尋工具。但在《寶可夢》這類長期任務中，工具集的差異被放大至足以決定成敗的程度。

回合制暴露AI的「長期記憶」短板

由於《寶可夢》採用嚴格的回合制且無需即時反應，它成為了測試 AI 的絕佳「練兵場」。AI 在每一步操作中，只需結合當前畫面、目標提示與可選操作進行推理，即可輸出「按A鍵」這類明確的指令。

這似乎正是大語言模型最擅長的互動形式。

癥結恰恰在於時間維度的「斷層」。儘管 Claude Opus 4.5 已累計運行超 500 小時、執行約 17 萬步，但受限於每一步操作後的重新初始化，模型只能在極窄的上下文視窗中尋找線索。這種機制讓它更像是一個靠便利貼維持認知的失憶者，在碎片化的資訊中循環往復，始終無法像真正的人類玩家那樣，實現從量變到質變的經驗跨越。

在國際象棋和圍棋等領域，AI系統早已超越人類，但這些系統是為特定任務高度客製化的。相比之下，Gemini、Claude和GPT作為通用模型，在考試、程式設計競賽中頻頻擊敗人類，卻在一款兒童向遊戲中屢屢受挫。

這種反差本身便極具啟示性。

在喬爾·張看來，AI面臨的核心挑戰在於無法在長時間跨度內持續執行單一明確目標。「如果你希望智慧體完成真正的工作，它不能忘記五分鐘前自己做了什麼」他指出。

而這種能力，正是實現認知勞動自動化不可或缺的前提。

獨立研究者彼得·惠登（Peter Whidden）給出了更直觀的描述。他曾開源一個基於傳統AI的《寶可夢》演算法。「AI對《寶可夢》幾乎無所不知」他表示，「它在海量人類資料上訓練，清楚知道正確答案。但一到執行階段，就顯得笨拙不堪。」

遊戲中，這種「知道卻做不到」的斷層被不斷放大：模型可能知道需尋找某道具，卻無法在二維地圖中穩定定位；知道應與NPC對話，卻在像素級移動中反覆失敗。

能力演進背後：未跨越的「本能」鴻溝

儘管如此，AI的進步仍清晰可見。Claude Opus 4.5在自我記錄和視覺理解上明顯優於前代，得以在遊戲中推進更遠。Gemini 3 Pro在通關《寶可夢藍》後，又完成了難度更高的《寶可夢水晶》，且全程未輸一場戰鬥。這是Gemini 2.5 Pro從未實現的。

與此同時，Anthropic推出的Claude Code工具集允許模型編寫並運行自有程式碼，已被用於《乘客大亨》等復古遊戲，據稱能成功管理虛擬主題公園。

這些案例揭示了一個不直觀的現實：配備合適工具集的AI，可能在軟體開發、會計、法律分析等知識工作中展現極高效率，即便它們仍難以應對需要即時反應的任務。

《寶可夢》實驗還揭示另一耐人尋味的現象：在人類資料上訓練的模型，會表現出近似人類的行為特徵。

在Gemini 2.5 Pro的技術報告中，谷歌指出，當系統模擬「恐慌狀態」，如寶可夢即將昏厥時，模型的推理品質會顯著下降。

而當Gemini 3 Pro最終通關《寶可夢藍》時，它為自己留下了一段非任務必需的備註：「為了詩意地結束，我要回到最初的家，與母親進行最後一次對話，讓角色退休。」

在喬爾·張看來，這一行為出乎意料，還帶有某種人類式的情感投射。

AI難以逾越的「數位長征」，遠不止《寶可夢》

《寶可夢》並非孤例。在追求通用人工智慧（AGI）的道路上，開發者發現，即便AI能在司法考試中名列前茅，在面對以下幾類複雜遊戲時，依然面臨著難以逾越的「滑鐵盧」。

《NetHack》：規則的深淵

這款80年代的地牢遊戲是AI研究界的「噩夢」。它的隨機性極強且有「永久死亡」機制。Facebook AI Research發現，即便模型能寫程式碼，但在需要常識邏輯和長期規劃的《NetHack》面前，表現甚至遠遜於人類初學者。

《我的世界》：消失的目標感

雖然AI已能製作木鎬甚至挖掘鑽石，但獨立「擊敗末影龍」仍是幻想。在開放世界裡，AI經常會在長達數十小時的資源收集過程中「忘記」初衷，或在複雜的導航中徹底迷路。

《星海爭霸 II》：通用性與專業的斷層

儘管客製化模型曾擊敗職業選手，但若讓Claude或Gemini直接透過視覺指令接管，它們便會瞬間崩盤。在處理「戰爭迷霧」的不確定性，以及平衡微操與宏觀建設方面，通用模型依然力不從心。

《乘客大亨》：微觀與宏觀的失衡

管理樂園需要追蹤數千名遊客的狀態。即便具備初步管理能力的Claude Code，在處理大規模財務崩潰或突發事故時也極易疲態。任何一次推理斷層，都會導致樂園破產。

《艾爾登法環》與《隻狼》：物理回饋的鴻溝

這類強動作回饋遊戲對AI極不友好。目前的視覺解析延遲意味著，當AI還在「思考」Boss動作時，角色往往已經陣亡。毫秒級的反應要求，構成了模型互動邏輯的天然上限。

為何《寶可夢》成為AI試金石？

如今，《寶可夢》正逐漸成為AI評估領域中一種非正式卻極具說服力的測試基準。

Anthropic、OpenAI和谷歌的模型在Twitch上的相關直播累計吸引數十萬條評論。谷歌在技術報告中詳細記錄Gemini的遊戲進展，皮查伊在I/O開發者大會上公開提及此項成果。Anthropic甚至在行業會議中設立「Claude玩寶可夢」展示區。

「我們是一群超級技術愛好者」Anthropic應用AI負責人大衛·赫希（David Hershey）坦言。但他強調，這不僅是娛樂。

與一次性問答式的傳統基準不同，《寶可夢》能在極長時間內持續追蹤模型的推理、決策與目標推進過程，這更接近現實世界中人類希望AI執行的複雜任務。

截至目前，AI在《寶可夢》中的挑戰仍在繼續。但正是這些反覆出現的困境，清晰勾勒出通用人工智慧尚未跨越的能力邊界。

免責聲明：本頁面資訊可能來自第三方，不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考，不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證，對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為，價格波動劇烈，您可能損失全部投資本金。請充分了解相關風險，並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明。

留言

0/400

暫無留言