人類全通關、AI最高0.37%：ARC-AGI-3用「未知遊戲」測Agent真智能

区块律动

2026-03-26 11:08:19

據 1M AI News 監測，Keras 創始人 François Chollet 與 Zapier 聯合創始人 Mike Knoop 創辦的非營利機構 ARC Prize 基金會發布 ARC-AGI-3 基準測試。與前兩代靜態網格推理任務不同，ARC-AGI-3 是一組交互式回合制環境，Agent 在 64×64、16 色的網格世界中行動，不會收到任何指令或目標提示，必須自主探索環境、推斷規則與勝利條件、構建世界模型並規劃行動序列。

評分採用「動作效率」機制，完成同一關卡所需步數越少得分越高，用以區分真正的推理能力和暴力窮舉。每個環境均經人類校準測試，確認 100% 可由人類在首次接觸時通關。前沿 AI 模型截至發布時的得分：

谷歌 Gemini 3.1 Pro Preview：0.37%
OpenAI GPT 5.4（High）：0.26%
Anthropic Opus 4.6（Max）：0.25%
xAI Grok-4.20（Beta）：0.00%

新版本的推出部分源於對前代基準被「污染」的擔憂。論文指出，Gemini 3 在推理鏈中自動使用了 ARC-AGI 的整數-顏色映射關係（如「3 = 綠色」），儘管提示詞中從未提及該映射，強烈暗示模型訓練數據已充分覆蓋 ARC-AGI 任務。ARC-AGI-3 通過交互式環境和自主目標發現機制來抵抗這類記憶捷徑。ARC Prize 2026 競賽總獎金超過 200 萬美元。

查看原文

免責聲明：本頁面資訊可能來自第三方，不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考，不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證，對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為，價格波動劇烈，您可能損失全部投資本金。請充分了解相關風險，並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明。

留言

0/400

暫無留言