据 1M AI News 监测,Keras 创始人 François Chollet 与 Zapier 联合创始人 Mike Knoop 创办的非营利机构 ARC Prize 基金会发布 ARC-AGI-3 基准测试。与前两代静态网格推理任务不同,ARC-AGI-3 是一组交互式回合制环境,Agent 在 64×64、16 色的网格世界中行动,不会收到任何指令或目标提示,必须自主探索环境、推断规则与胜利条件、构建世界模型并规划行动序列。
评分采用「动作效率」机制,完成同一关卡所需步数越少得分越高,用以区分真正的推理能力和暴力穷举。每个环境均经人类校准测试,确认 100% 可由人类在首次接触时通关。前沿 AI 模型截至发布时的得分:
新版本的推出部分源于对前代基准被「污染」的担忧。论文指出,Gemini 3 在推理链中自动使用了 ARC-AGI 的整数-颜色映射关系(如「3 = 绿色」),尽管提示词中从未提及该映射,强烈暗示模型训练数据已充分覆盖 ARC-AGI 任务。ARC-AGI-3 通过交互式环境和自主目标发现机制来抵抗这类记忆捷径。ARC Prize 2026 竞赛总奖金超过 200 万美元。