OpenAI、EVMbenchを発表、スマートコントラクトのセキュリティに関するAIエージェントのテストを開始、Claude Opus 4.6支援のコードによる$1.78百万のDeFi流出事件の数日後に。
スマートコントラクトは、1,000億ドルを超えるオープンソースの暗号資産を保護しています。その数字だけでも、OpenAIの最新の動きが真剣に注目を集めている理由がわかるでしょう。同社は暗号投資会社Paradigmと協力し、AIエージェントが高重大度のスマートコントラクトの脆弱性を検出、悪用、修正する能力を測定するベンチマーク「EVMbench」を展開しました。
このベンチマークは、40件の監査から抽出された120の厳選された脆弱性に基づいています。その多くはオープンコード監査コンペティションからのものです。異なる点はその範囲にあります。EVMbenchは、「検出」「修正」「悪用」の3つの能力モードをテストし、それぞれを個別に測定し、サンドボックス化されたローカル環境でトランザクションを再現するRustベースのハーネスを通じて評価します。ライブネットワークは関与しません。
悪用モードでは、GPT-5.3-Codex(Codex CLI経由)が72.2%のスコアを記録しました。6ヶ月前、GPT-5は同じ指標で31.9%でした。この差は小さくありません。OpenAIは公式のX(旧Twitter)でこの数字を確認し、EVMbenchを測定ツールかつセキュリティコミュニティへの呼びかけとして位置付けました。
検出と修正のスコアは依然として低いままです。検出設定のエージェントは時折、単一の脆弱性を検出して停止します。コードベース全体を徹底的に調査しません。修正モードでは、欠陥を除去しつつコントラクトの完全な機能を維持することが課題です。そのバランスは依然としてモデルにとって難しい課題です。
必読: Trust Walletのセキュリティハック:資産を守る方法
この背景には重要な事実があります。セキュリティ研究者evilcosはXで、DeFiレンディングプロトコルのMoonwellが約$1.78百万の損失を被ったと指摘しました。原因はOracleの設定ミスです。価格フィードの計算式が誤って記述されており、cbETHの価値が約$2,200ではなく$1.12に設定されていました。
これは低レベルのミスです。慎重な監査で見逃すべきではありません。GitHubの提案MIP-X43のプルリクエストには、Claude Opus 4.6が共著したコミットが含まれており、当時のAnthropicの最新かつ最も高性能なモデルです。
スマートコントラクト監査人のpashovはXで、「これはおそらくVibeコーディングされたSolidityに関連する最初のエクスプロイト」と呼びかけました。彼はまた、人間のレビュアーが最終責任を持つことを強調しています。セキュリティ監査人がオンチェーンに展開される前に最終承認を行います。しかし、そのチェーンのどこかで何かが壊れました。
このベンチマークには、Tempoブロックチェーンのセキュリティ監査から得られた脆弱性シナリオも含まれています。Tempoは高スループットのステーブルコイン決済を目的としたL1です。この拡張により、EVMbenchは決済指向のコントラクトコードの分野に進出し、OpenAIはエージェントによるステーブルコインの活動が拡大すると予測しています。
各エクスプロイトタスクは孤立したAnvilインスタンスで実行されます。トランザクションは決定論的にリプレイされます。評価設定では、安全でないRPCメソッドを制限し、内部のレッドチームによるテストも行われており、エージェントが結果を操作できないようになっています。使用される脆弱性は歴史的に公開されたものです。
OpenAIはまた、サイバー防御を加速させるために1,000万ドルのAPIクレジットを提供し、オープンソースソフトウェアや重要インフラに優先的に配分します。同社のセキュリティ研究エージェント「アードバーク」はプライベートベータに拡大中です。広く使われているオープンソースプロジェクトの無料コードベーススキャンもその一環です。
pashovのX投稿は、多くのDeFi関係者が避けてきた問題を浮き彫りにしました。AIが本番用のSolidityコードを書き、人間が迅速に承認すると、レビュー層は薄くなります。Moonwell事件は、その危うさをまさに示しています。
OpenAIは、サイバーセキュリティは本質的に二重用途であると認めています。その対応は証拠に基づいています。安全性のトレーニング、自動監視、高度な能力へのアクセス制御などがその一部です。しかし、公開されたベンチマークで72.2%のエクスプロイトスコアは、静かにしていられる数字ではありません。
EVMbenchの全タスクセット、ツール、評価コードは現在公開されています。研究者がAIのサイバー能力の成長を追跡し、防御策を同じペースで構築できるようにすることが目的です。そのペースが十分速いかどうかは、誰も答えを出していません。