OpenAI запускає EVMbench для тестування AI-агентів у сфері безпеки смарт-контрактів через кілька днів після того, як код з підтримкою Claude Opus 4.6 спричинив злом DeFi на 1,78 мільйона доларів.
Розумні контракти захищають понад 100 мільярдів доларів у відкритих криптоактивах. Ця цифра сама по собі має пояснити, чому останні кроки OpenAI привертають серйозну увагу. Компанія, працюючи разом із криптоінвестиційною фірмою Paradigm, запустила EVMbench — бенчмарк, створений для тестування здатності AI-агентів виявляти, експлуатувати та виправляти високоризикові вразливості смарт-контрактів.
Бенчмарк базується на 120 відібраних уразливостях, взятих із 40 аудитів. Більшість із них походять із відкритих конкурсів аудиту коду. Що робить його особливим — це масштаб. EVMbench тестує три різні режими можливостей: виявлення, виправлення та експлуатація, кожен окремо вимірюється та оцінюється за допомогою інструменту на базі Rust, який відтворює транзакції у ізольованому локальному середовищі. Живі мережі не залучені.
У режимі експлуатації GPT-5.3-Codex через Codex CLI набрав 72,2%. Шість місяців тому GPT-5 показав 31,9% за цим показником. Різниця суттєва. OpenAI підтвердили ці дані у своєму офіційному оголошенні на X, позначаючи EVMbench як інструмент вимірювання та заклик до дії для спільноти безпеки.
Рейтинги виявлення та виправлення залишаються нижчими. Агентам у режимі виявлення іноді вдається знайти одну вразливість і припиняють пошук. Вони не досліджують весь код. У режимі виправлення виклик полягає у збереженні повної функціональності контракту при одночасному усуненні вразливості. Цей баланс досі викликає труднощі у моделів.
Обов’язково до прочитання: Безпека Wallet Trust: Як захистити свої активи
Обставини мають значення. Дослідник безпеки evilcos на X повідомив, що DeFi-кредитна платформа Moonwell зазнала збитків приблизно на 1,78 мільйона доларів. Причиною стала помилка у конфігурації Oracle. Формула цінового фіду була написана неправильно, встановлюючи вартість cbETH у 1,12 долара замість приблизно 2200 доларів.
Це помилка низького рівня. Її має виявити ретельний аудит. Запит на злиття у GitHub для пропозиції MIP-X43 містив коміти, співавтором яких був Claude Opus 4.6 — найновіша та найпотужніша модель Anthropic на той час.
Аудитор смарт-контрактів pashov опублікував у X, що це, можливо, перший експлойт, пов’язаний із vibe-кодованим Solidity. Він уважно зазначив, що остаточну відповідальність несуть людські рецензенти. Аудитор безпеки підписує дозвіл перед тим, як щось потрапить у блокчейн. Але щось у цій ланці зламалося.
Бенчмарк включає сценарії вразливостей із аудиту безпеки блокчейну Tempo, спеціально створеного для високопродуктивних платежів у стабільконах L1. Це розширення переводить EVMbench у сферу контрактного коду, орієнтованого на платежі, де OpenAI очікує зростання активності стабільконів із застосуванням агентів.
Кожне завдання з експлуатації виконується у ізольованому середовищі Anvil. Транзакції відтворюються детерміновано. Система оцінювання обмежує використання небезпечних RPC-методів і була внутрішньо протестована для запобігання шахрайству агентів. Використовувані вразливості — історичні та публічно задокументовані.
OpenAI також виділяє 10 мільйонів доларів у кредитах API для прискорення кіберзахисту, з пріоритетом для відкритого програмного забезпечення та критичної інфраструктури. Їхній агент дослідження безпеки Aardvark розширюється у приватну бета-версію. Безкоштовне сканування коду для широко використовуваних відкритих проектів є частиною цієї ініціативи.
Пост pashov у X підняв те, чого багато у сфері DeFi уникали. Коли AI пише виробничий Solidity-код і люди швидко його затверджують, рівень перевірки стає тонким. Інцидент із Moonwell показав, наскільки це може бути тонко.
OpenAI визнає, що кібербезпека за своєю природою має подвійне застосування. Їхня відповідь базується на доказах. Тренінги з безпеки, автоматичний моніторинг і контроль доступу до передових можливостей — це частина їхньої стратегії. Але 72,2% показник експлуатації на публічному бенчмарку — це число, яке не залишається непоміченим.
Повний набір завдань, інструменти та код оцінювання EVMbench тепер відкриті. Мета — дозволити дослідникам відстежувати зростання кіберздібностей AI та розвивати захист у тому ж темпі. Чи достатньо швидкий цей темп — питання, на яке ще ніхто не дав відповіді.