OpenAI 放棄 EVMbench,原因是 Claude Vibe 代碼災難

Live BTC News
DEFI-4.27%
WELL1.45%
L1-5.62%
CODEX-3.1%

OpenAI 推出 EVMbench,用於測試 AI 代理在智能合約安全性方面的能力,僅數天前 Claude Opus 4.6 協助的程式碼觸發了 178 萬美元的 DeFi 攻擊。

智能合約保護著超過 1000 億美元的開源加密資產。僅這個數字就足以說明為何 OpenAI 的最新動作引起了廣泛關注。該公司與加密投資公司 Paradigm 合作,推出了 EVMbench,一個用來測試 AI 代理在偵測、利用與修補高嚴重性智能合約漏洞方面能力的基準測試。

這個基準測試從 40 次審計中篩選出 120 個經過策劃的漏洞。大多數來自公開的程式碼審計比賽。它的不同之處在於範圍。EVMbench 針對三種不同的能力模式進行測試:偵測、修補與利用,每一項都獨立測量,並透過一個基於 Rust 的測試平台在沙箱環境中重放交易來評分,完全不涉及實時網路。

值得每個人關注的數字

在利用模式中,GPT-5.3-Codex 透過 Codex CLI 的得分為 72.2%。六個月前,GPT-5 在同一指標上的得分為 31.9%。這個差距並不小。OpenAI 在其官方 X 發布中確認了這些數據,並將 EVMbench 定義為一個測量工具,也是對安全社群的一個行動號召。

偵測與修補的得分仍較低。在偵測模式下,代理有時只會識別出一個漏洞就停止,並不會徹底檢查整個程式碼庫。在修補模式中,挑戰在於在移除缺陷的同時,保持合約的完整功能。這個平衡點仍然讓模型感到困難。

必讀: Trust Wallet 安全漏洞:如何保障你的資產

一個 178 萬美元的 Oracle 錯誤沒有人察覺

這一切的背景很重要。安全研究員 evilcos 在 X 上指出,DeFi 借貸協議 Moonwell 遭遇了約 178 萬美元的損失。原因是一個 Oracle 配置錯誤。價格餵送公式寫錯,導致 cbETH 的價值被設定為 1.12 美元,而非約 2200 美元。

這是一個低層次的錯誤。應該由細心的審計來捕捉。GitHub 提案 MIP-X43 的拉取請求中,顯示由 Claude Opus 4.6 共同提交的提交記錄。當時 Anthropic 的最新且最強大的模型。

智能合約審計員 pashov 在 X 上發帖,稱這可能是第一個與 vibe-coded Solidity 相關的漏洞。他特別指出,最終還是由人類審查員負責。安全審計員在上鏈前會簽署確認。但在這個鏈條中,某個環節出現了問題。

EVMbench 實際的設計目的

這個基準測試包含來自 Tempo 區塊鏈安全審計的漏洞場景,Tempo 是一個專為高吞吐量穩定幣支付而設計的 Layer 1 區塊鏈。這個擴展將 EVMbench 推向支付導向的合約程式碼領域,OpenAI 預期在這個領域中,代理能夠處理的穩定幣活動將會增加。

每個利用任務都在一個隔離的 Anvil 實例中運行。交易以確定性重放。評分系統限制了不安全的 RPC 方法,並在內部進行紅隊測試,以防代理作弊。所用的漏洞都是歷史的、公開記錄的。

OpenAI 也承諾投入 1000 萬美元的 API 信用額,以加速網路安全防禦,重點支持開源軟體與關鍵基礎設施。其安全研究代理 Aardvark 正在擴展到私有測試階段。免費的程式碼庫掃描,針對廣泛使用的開源專案,也是這一推動的一部分。

帶有真實風險的 vibe-coded 問題

Pashov 在 X 上的貼文提出了許多 DeFi 領域一直在回避的問題。當 AI 編寫生產用 Solidity 程式碼並且人類快速批准時,審查層就變得薄弱。Moonwell 事件就清楚展現了這一點。

OpenAI 承認,網路安全本質上具有雙重用途。其應對措施是基於證據的。安全訓練、自動監控與高階能力的存取控制都是其中的一部分。但在公開基準測試中取得 72.2% 的利用得分,這樣的數字是不會保持沉默的。

EVMbench 的完整任務集、工具與評估程式碼現已公開。目標是讓研究人員追蹤 AI 網路能力的成長,並同步建立防禦措施。這個速度是否足夠快,仍是尚未有人回答的問題。

查看原文
免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明
留言
0/400
暫無留言