人類全クリア、AI最高0.37%:ARC-AGI-3が「未知のゲーム」でエージェントの真の知能を測定

BlockBeatNews

1M AI Newsの監測によると、Kerasの創始者フランソワ・チョレとZapierの共同創設者マイク・ノープが設立した非営利団体ARC Prize基金会は、ARC-AGI-3のベンチマークテストを発表しました。従来の静的な格子推論タスクとは異なり、ARC-AGI-3はインタラクティブなターン制環境のセットであり、エージェントは64×64の16色格子世界で行動します。指示や目標のヒントは一切なく、自律的に環境を探索し、ルールや勝利条件を推測し、世界モデルを構築し、行動のシーケンスを計画しなければなりません。

スコアは「行動効率」メカニズムを採用しており、同じレベルをクリアするのに必要なステップ数が少ないほど高得点となります。これは、真の推論能力と単なる暴力的な総当たりを区別するためのものです。各環境は人間による校正テストを経ており、初めて触れたときに100%クリアできることが確認されています。公開時点での最先端AIモデルのスコアは以下の通りです。

  1. Google Gemini 3.1 Pro Preview:0.37%
  2. OpenAI GPT 5.4(High):0.26%
  3. Anthropic Opus 4.6(Max):0.25%
  4. xAI Grok-4.20(Beta):0.00%

新バージョンのリリースは、一部で前世代のベンチマークが「汚染」されているとの懸念に起因しています。論文では、Gemini 3が推論チェーン内でARC-AGIの整数-色対応関係(例:「3=緑」)を自動的に使用していることが指摘されています。これは、プロンプトにその対応関係が一切記載されていないにもかかわらず、モデルの学習データがARC-AGIのタスクを十分にカバーしていることを強く示唆しています。ARC-AGI-3は、インタラクティブな環境と自主的な目標発見メカニズムを通じて、このような記憶によるショートカットに抵抗します。ARC Prize 2026の総賞金は200万ドルを超えています。

原文表示
免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。
コメント
0/400
コメントなし