OpenAI 放棄 EVMbench，原因是 Claude Vibe 代碼災難

Live BTC News

2026-02-19 18:35:41

DEFI-4.27%

WELL1.45%

L1-5.62%

CODEX-3.1%

OpenAI 推出 EVMbench，用於測試 AI 代理在智能合約安全性方面的能力，僅數天前 Claude Opus 4.6 協助的程式碼觸發了 178 萬美元的 DeFi 攻擊。

智能合約保護著超過 1000 億美元的開源加密資產。僅這個數字就足以說明為何 OpenAI 的最新動作引起了廣泛關注。該公司與加密投資公司 Paradigm 合作，推出了 EVMbench，一個用來測試 AI 代理在偵測、利用與修補高嚴重性智能合約漏洞方面能力的基準測試。

這個基準測試從 40 次審計中篩選出 120 個經過策劃的漏洞。大多數來自公開的程式碼審計比賽。它的不同之處在於範圍。EVMbench 針對三種不同的能力模式進行測試：偵測、修補與利用，每一項都獨立測量，並透過一個基於 Rust 的測試平台在沙箱環境中重放交易來評分，完全不涉及實時網路。

值得每個人關注的數字

在利用模式中，GPT-5.3-Codex 透過 Codex CLI 的得分為 72.2%。六個月前，GPT-5 在同一指標上的得分為 31.9%。這個差距並不小。OpenAI 在其官方 X 發布中確認了這些數據，並將 EVMbench 定義為一個測量工具，也是對安全社群的一個行動號召。

偵測與修補的得分仍較低。在偵測模式下，代理有時只會識別出一個漏洞就停止，並不會徹底檢查整個程式碼庫。在修補模式中，挑戰在於在移除缺陷的同時，保持合約的完整功能。這個平衡點仍然讓模型感到困難。

必讀： Trust Wallet 安全漏洞：如何保障你的資產

一個 178 萬美元的 Oracle 錯誤沒有人察覺

這一切的背景很重要。安全研究員 evilcos 在 X 上指出，DeFi 借貸協議 Moonwell 遭遇了約 178 萬美元的損失。原因是一個 Oracle 配置錯誤。價格餵送公式寫錯，導致 cbETH 的價值被設定為 1.12 美元，而非約 2200 美元。

這是一個低層次的錯誤。應該由細心的審計來捕捉。GitHub 提案 MIP-X43 的拉取請求中，顯示由 Claude Opus 4.6 共同提交的提交記錄。當時 Anthropic 的最新且最強大的模型。

智能合約審計員 pashov 在 X 上發帖，稱這可能是第一個與 vibe-coded Solidity 相關的漏洞。他特別指出，最終還是由人類審查員負責。安全審計員在上鏈前會簽署確認。但在這個鏈條中，某個環節出現了問題。

EVMbench 實際的設計目的

這個基準測試包含來自 Tempo 區塊鏈安全審計的漏洞場景，Tempo 是一個專為高吞吐量穩定幣支付而設計的 Layer 1 區塊鏈。這個擴展將 EVMbench 推向支付導向的合約程式碼領域，OpenAI 預期在這個領域中，代理能夠處理的穩定幣活動將會增加。

每個利用任務都在一個隔離的 Anvil 實例中運行。交易以確定性重放。評分系統限制了不安全的 RPC 方法，並在內部進行紅隊測試，以防代理作弊。所用的漏洞都是歷史的、公開記錄的。

OpenAI 也承諾投入 1000 萬美元的 API 信用額，以加速網路安全防禦，重點支持開源軟體與關鍵基礎設施。其安全研究代理 Aardvark 正在擴展到私有測試階段。免費的程式碼庫掃描，針對廣泛使用的開源專案，也是這一推動的一部分。

帶有真實風險的 vibe-coded 問題

Pashov 在 X 上的貼文提出了許多 DeFi 領域一直在回避的問題。當 AI 編寫生產用 Solidity 程式碼並且人類快速批准時，審查層就變得薄弱。Moonwell 事件就清楚展現了這一點。

OpenAI 承認，網路安全本質上具有雙重用途。其應對措施是基於證據的。安全訓練、自動監控與高階能力的存取控制都是其中的一部分。但在公開基準測試中取得 72.2% 的利用得分，這樣的數字是不會保持沉默的。

EVMbench 的完整任務集、工具與評估程式碼現已公開。目標是讓研究人員追蹤 AI 網路能力的成長，並同步建立防禦措施。這個速度是否足夠快，仍是尚未有人回答的問題。

查看原文

免責聲明：本頁面資訊可能來自第三方，不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考，不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證，對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為，價格波動劇烈，您可能損失全部投資本金。請充分了解相關風險，並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明。

留言

0/400

暫無留言