OpenAI 放弃 EVMbench,原因是 Claude Vibe 代码灾难

Live BTC News
DEFI8.79%
WELL0.25%
L1-1.25%
CODEX-0.28%

OpenAI推出EVMbench,用于测试AI代理在智能合约安全性方面的表现,几天后Claude Opus 4.6辅助代码触发了178万美元的DeFi漏洞。

智能合约保护着超过1000亿美元的开源加密资产。仅这一数字就足以说明为什么OpenAI的最新举措引起了广泛关注。该公司与加密投资公司Paradigm合作,推出了EVMbench,这是一个旨在测试AI代理检测、利用和修补高严重性智能合约漏洞能力的基准测试。

该基准测试采集了40次审计中的120个精选漏洞。大部分来自公开的代码审计竞赛。不同之处在于其范围。EVMbench测试三种不同的能力模式:检测、修补和利用,每个模式单独测量,并通过一个基于Rust的测试框架进行评分,该框架在沙箱环境中重放交易,不涉及实际网络。

应引起所有人关注的数字

在利用模式下,GPT-5.3-Codex通过Codex CLI的得分为72.2%。六个月前,GPT-5在同一指标上的得分为31.9%。这个差距并不小。OpenAI在X上的官方公告中确认了这些数据,并将EVMbench描述为一种衡量工具,也是对安全社区的行动号召。

检测和修补的得分仍然较低。在检测模式下,代理有时只识别出一个漏洞就停止了,并没有彻底扫描整个代码库。在修补模式中,挑战在于在移除缺陷的同时保持合约的完整功能。这一平衡仍然让模型感到困难。

必读: Trust Wallet安全漏洞:如何保护你的资产

178万美元的Oracle错误无人发现

这一切的背景尤为重要。安全研究员evilcos在X上指出,DeFi借贷协议Moonwell遭受了约178万美元的损失。原因是Oracle配置错误。价格喂价公式写错了,将cbETH的价值设为1.12美元,而实际上应约为2200美元左右。

这是一个低级错误。应由细致审计捕捉到。提案MIP-X43的GitHub拉取请求显示,提交由Claude Opus 4.6共同完成。那是当时Anthropic最新且最强大的模型。

智能合约审计员pashov在X上发帖,称这可能是首个与 vibe-coded Solidity相关的漏洞。他特别指出,最终责任仍由人工审查员承担。安全审计员在代码上链前会签字确认。但在这个链条中,某个环节出现了问题。

EVMbench的真正目标

该基准测试包括来自Tempo区块链安全审计的漏洞场景。Tempo是为高吞吐量稳定币支付设计的专用L1链。这个扩展将EVMbench推向了支付导向的合约代码领域,OpenAI预期在这一领域,代理型稳定币的活动将会增长。

每个利用任务都在隔离的Anvil实例中运行。交易以确定性方式重放。评分系统限制了不安全的RPC方法,并在内部进行了红队测试,以防止代理“作弊”。所用漏洞都是历史的、公开记录的。

OpenAI还承诺投入1000万美元的API额度,用于加速网络安全防御,优先支持开源软件和关键基础设施。其安全研究代理Aardvark正进入私测阶段。免费对广泛使用的开源项目进行代码扫描也是该计划的一部分。

带有真实风险的 vibe-coded 问题

Pashov在X上的帖子提出了许多DeFi领域一直在回避的问题。当AI编写生产级Solidity代码并被人类快速批准时,审查层就变得薄弱。Moonwell事件恰恰展示了这一点的严重性。

OpenAI承认网络安全本质上具有双重用途。其应对措施是基于证据的,包括安全培训、自动监控和对高级能力的访问控制。但在公开基准测试中获得72.2%的利用得分,这样的数字绝不会保持沉默。

EVMbench的完整任务集、工具和评估代码现已公开。目标是让研究人员跟踪AI网络能力的增长,并同步构建防御措施。这个速度是否足够快,仍是一个尚未回答的问题。

查看原文
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明
评论
0/400
暂无评论