人类全通关、AI最高0.37%：ARC-AGI-3用「未知游戏」测Agent真智能

区块律动

2026-03-26 11:08:19

据 1M AI News 监测，Keras 创始人 François Chollet 与 Zapier 联合创始人 Mike Knoop 创办的非营利机构 ARC Prize 基金会发布 ARC-AGI-3 基准测试。与前两代静态网格推理任务不同，ARC-AGI-3 是一组交互式回合制环境，Agent 在 64×64、16 色的网格世界中行动，不会收到任何指令或目标提示，必须自主探索环境、推断规则与胜利条件、构建世界模型并规划行动序列。

评分采用「动作效率」机制，完成同一关卡所需步数越少得分越高，用以区分真正的推理能力和暴力穷举。每个环境均经人类校准测试，确认 100% 可由人类在首次接触时通关。前沿 AI 模型截至发布时的得分：

谷歌 Gemini 3.1 Pro Preview：0.37%
OpenAI GPT 5.4（High）：0.26%
Anthropic Opus 4.6（Max）：0.25%
xAI Grok-4.20（Beta）：0.00%

新版本的推出部分源于对前代基准被「污染」的担忧。论文指出，Gemini 3 在推理链中自动使用了 ARC-AGI 的整数-颜色映射关系（如「3 = 绿色」），尽管提示词中从未提及该映射，强烈暗示模型训练数据已充分覆盖 ARC-AGI 任务。ARC-AGI-3 通过交互式环境和自主目标发现机制来抵抗这类记忆捷径。ARC Prize 2026 竞赛总奖金超过 200 万美元。

免责声明：本页面信息可能来自第三方，不代表 Gate 的观点或意见。页面显示的内容仅供参考，不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证，对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为，价格波动剧烈，您可能损失全部投资本金。请充分了解相关风险，并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明。

0/400

暂无评论