OpenAI прекращает поддержку EVMbench после катастрофы с кодом Claude Vibe

LiveBTCNews
DEFI0,94%
WELL-4,56%
L14,14%
CODEX0,02%

OpenAI запускает EVMbench для тестирования ИИ-агентов на безопасность смарт-контрактов через несколько дней после того, как код с помощью Claude Opus 4.6 вызвал взлом DeFi на сумму 1,78 миллиона долларов.

Смарт-контракты защищают более 100 миллиардов долларов в открытых криптоактивах. Эта цифра сама по себе должна объяснить, почему последнее решение OpenAI привлекает серьезное внимание. Компания, совместно с криптоинвестиционной фирмой Paradigm, выпустила EVMbench — бенчмарк, предназначенный для оценки того, насколько хорошо ИИ-агенты обнаруживают, используют и исправляют уязвимости смарт-контрактов высокой степени серьезности.

Бенчмарк основан на 120 отобранных уязвимостях, взятых из 40 аудитов. Большинство из них были получены из открытых конкурсов по аудиту кода. Чем он отличается — так это масштабом. EVMbench тестирует три различных режима возможностей: обнаружение, исправление и использование уязвимостей, каждый измеряется отдельно и оценивается с помощью среды на базе Rust, которая воспроизводит транзакции в изолированной локальной среде. В процессе не задействованы живые сети.

Число, которое должно тревожить всех

В режиме использования уязвимостей GPT-5.3-Codex через Codex CLI набрал 72,2%. Полгода назад GPT-5 показывал 31,9% по тому же показателю. Разрыв значительный. OpenAI подтвердил эти цифры в своем официальном объявлении в X, представив EVMbench как инструмент измерения и призыв к действию для сообщества безопасности.

Баллы за обнаружение и исправление остаются ниже. Агентам в режиме обнаружения иногда удается выявить одну уязвимость, после чего они останавливаются. Они не исследуют весь код. В режиме исправления задача — сохранить полную функциональность контракта, устранив уязвимость. Этот баланс все еще вызывает трудности у моделей.

Обязательно к прочтению: Безопасность Wallet Trust: как защитить свои активы

Ошибка оракула на 1,78 миллиона долларов, которую никто не заметил

Фон всему этому придает ситуация, о которой сообщил исследователь безопасности evilcos в X: протокол DeFi Moonwell понес убытки примерно на 1,78 миллиона долларов. Причиной стала ошибка в настройке оракула. Формула ценового фида была написана неправильно, из-за чего стоимость cbETH была установлена в 1,12 доллара вместо примерно 2200 долларов.

Это ошибка низкого уровня. Ее должен был обнаружить тщательный аудит. Pull-запрос на GitHub по предложению MIP-X43 содержал коммиты, выполненные совместно с Claude Opus 4.6 — самой современной и мощной моделью Anthropic на тот момент.

Аудитор смарт-контрактов pashov опубликовал в X сообщение, в котором назвал это, возможно, первым взломом, связанным с vibe-кодированным Solidity. Он подчеркнул, что окончательную ответственность все равно несут человеческие ревьюеры. Перед тем как что-то попадет в блокчейн, его проверяет специалист по безопасности. Но что-то в этой цепочке сломалось.

Что на самом деле предназначено для EVMbench

В бенчмарк включены сценарии уязвимостей из аудита безопасности блокчейна Tempo — специально созданного L1, предназначенного для высокопроизводительных платежей в стабильных монетах. Эта расширенная область переводит EVMbench в сферу контрактов, ориентированных на платежи, где OpenAI ожидает роста активности с использованием стабильных монет.

Каждая задача по использованию уязвимости выполняется в изолированном экземпляре Anvil. Транзакции воспроизводятся детерминированно. Настройка оценки ограничивает использование небезопасных RPC-методов и была проверена внутренней командой безопасности, чтобы предотвратить манипуляции со стороны агентов. Используемые уязвимости — исторические и публично задокументированные.

OpenAI также выделяет 10 миллионов долларов в виде кредитов API для ускорения киберзащиты, при этом приоритет отдается открытому программному обеспечению и критической инфраструктуре. Его агент по безопасности Aardvark расширяется до приватной бета-версии. В рамках этого усилия осуществляется бесплатное сканирование исходных кодов широко используемых open-source проектов.

Вопрос vibe-кодирования с реальными ставками

Пост pashov в X поднял проблему, которую многие в DeFi избегали. Когда ИИ пишет производственный Solidity-код, а люди быстро его одобряют, уровень проверки становится тонким. Инцидент с Moonwell показал, насколько это может быть опасно.

OpenAI признала, что кибербезопасность по своей природе является двунаправленной областью. Ее ответ основан на доказательствах. В него входят обучение по безопасности, автоматический мониторинг и контроль доступа к расширенным возможностям. Но показатель взлома в 72,2% по публичному бенчмарку — это число, которое не остается незамеченным.

Полный набор задач, инструменты и код оценки EVMbench теперь доступны публике. Цель — дать исследователям возможность отслеживать развитие киберспособностей ИИ и одновременно создавать защитные меры. Насколько быстро этот процесс идет — вопрос, на который еще никто не ответил.

Посмотреть Оригинал
Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев