OpenAI、AIのコーディングスキルを測定するために使用されるベンチマークは「汚染されている」と指摘—その理由は何か

Decrypt

要点

  • OpenAIは、SWE-bench Verifiedが実際のコーディング能力を正確に反映していないと主張し、そのベンチマークが汚染されていると指摘している。
  • 現在は、より難易度の高いSWE-bench Proを推奨している。
  • スコアは約70%から約23%に急落した。

主要なAI研究所がコーディングの優越性を主張するために使用してきた数値は、無意味だと宣言された。 OpenAIは今週、AIのコーディング能力を測るための標準的なベンチマークであるSWE-bench Verifiedが、欠陥のあるテストやトレーニングデータの漏洩により、もはや有用な情報を提供しなくなったと発表した。 このベンチマークの仕組みは次の通り:AIに人気のオープンソースPythonプロジェクトのGitHubの実問題を提示し、テストを見ることなくバグを修正させ、その修正が失敗しているテストを通過させ、他の部分を壊さずに済むかどうかを確認する。

 OpenAIは2024年8月に、2023年のオリジナルベンチマークをよりクリーンにしたSWE-bench Verifiedを作成し、93人のソフトウェアエンジニアを採用して、難易度の高いまたは設計の悪いタスクを除外した。 このクリーンアップは成功し、多くの研究所がそのスコアを進歩の証拠として引用し始めた。2025年5月にAnthropicがClaude Opus 4をリリースした際、_Decryptは_そのモデルがSWE-bench Verifiedで72.5%のスコアを獲得し、GPT-4.1の54.6%、Gemini 2.5 Proの63.2%を上回ったと報じた。これは重要なコーディングベンチマークだった。 それ以来、アメリカから中国までのすべてのAI研究所が、コーディング能力の最優秀モデルを競うためにこのスコアを示してきた。

画像:Minimax

しかし、OpenAIはその競争は一部幻だったと述べている。報告によると、GPT-5.2が64回の独立した実行で一貫して失敗した138のタスクを監査し、6人のエンジニアがそれぞれレビューした結果、59.4%のタスクが壊れていると結論付けた。 約35.5%は、問題の記述に一切登場しない特定の関数名を必要とする極めて狭い範囲のテストであり、残りの18.8%は、元の問題に関係のないプルリクエストから収集された機能をチェックしていた。 汚染の問題はおおよそ次のように働く:SWE-benchは、ほとんどのAI企業がトレーニングセットを構築する際にクロールするオープンソースリポジトリから問題を抽出している。OpenAIは、GPT-5.2、Claude Opus 4.5、Gemini 3 Flash Previewがトレーニング中にベンチマークの解答を見ていたかどうかを検証した。結果、すべてのモデルが見ていた。 タスクIDと簡単なヒントだけを与えると、各モデルは記憶から正確なコード修正を再現でき、変数名や問題記述には登場しないインラインコメントも含まれていた。一例では、GPT-5.2の思考ログに、「Django 4.1頃に追加されたはずの特定のパラメータ」と推論している記録があり、これはDjangoのリリースノートにしか記載されていない詳細だった。すでに答えを知っている質問に答えていたのだ。 OpenAIは現在、より多様なコードベースとトレーニングデータの露出を抑えるライセンスを使用した新しいベンチマーク、Scale AIのSWE-bench Proを推奨している。パフォーマンスの低下は衝撃的で、旧Verifiedで70%以上のスコアを出していたモデルは、SWE-bench Proの公開分割では約23%、非公開タスクではさらに低いスコアとなっている。 現在の公開SWE-bench Verifiedのリーダーボードでは、OpenAIはベンチマークの上位に遠く及ばない。負けているベンチマークを引退させ、誰もが23%からスタートする新たなベンチマークを推奨することで、スコアボードをリセットし、競合の主張をあまり目立たなくしている。

これは特に、待望の新バージョンDeepSeekが米国のAIモデルを凌駕、または非常に近づくと噂されている状況において重要だ。特にエージェントやコーディングタスクにおいて、無料のオープンソースモデルがその性能を示す可能性が高い。リリースまであと数日とされるこのモデルの品質を測る重要な指標として、SWE-bench Verifiedが役立つだろう。

OpenAIは、テスト前に公開されない独自評価を構築していると述べており、その一例として、ドメインの専門家がオリジナルのタスクを作成し、訓練された人間のレビュアーが採点するGDPValプロジェクトを挙げている。 このベンチマークの問題は新しいものではなく、コーディングに特有のものでもない。AI研究所は複数の評価を経てきたが、それらはモデルの訓練やタスクの狭さによって使えなくなった。 しかし、このケースの注目点は、OpenAIがSWE-bench Verifiedを大々的に宣伝し、モデルリリースごとに推奨し、今やその失敗の詳細を公開している点にある。さらには、自らのモデルがそれを不正に利用していた証拠まで示している。

原文表示
免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。
コメント
0/400
コメントなし