OpenAI скасовує EVMbench після катастрофи з кодом Claude Vibe

LiveBTCNews

2026-02-19 18:35:41

DEFI0,33%

WELL-1,7%

L1-0,98%

CODEX-0,02%

OpenAI запускає EVMbench для тестування AI-агентів у сфері безпеки смарт-контрактів через кілька днів після того, як код з підтримкою Claude Opus 4.6 спричинив злом DeFi на 1,78 мільйона доларів.

Розумні контракти захищають понад 100 мільярдів доларів у відкритих криптоактивах. Ця цифра сама по собі має пояснити, чому останні кроки OpenAI привертають серйозну увагу. Компанія, працюючи разом із криптоінвестиційною фірмою Paradigm, запустила EVMbench — бенчмарк, створений для тестування здатності AI-агентів виявляти, експлуатувати та виправляти високоризикові вразливості смарт-контрактів.

Бенчмарк базується на 120 відібраних уразливостях, взятих із 40 аудитів. Більшість із них походять із відкритих конкурсів аудиту коду. Що робить його особливим — це масштаб. EVMbench тестує три різні режими можливостей: виявлення, виправлення та експлуатація, кожен окремо вимірюється та оцінюється за допомогою інструменту на базі Rust, який відтворює транзакції у ізольованому локальному середовищі. Живі мережі не залучені.

Число, яке має турбувати всіх

У режимі експлуатації GPT-5.3-Codex через Codex CLI набрав 72,2%. Шість місяців тому GPT-5 показав 31,9% за цим показником. Різниця суттєва. OpenAI підтвердили ці дані у своєму офіційному оголошенні на X, позначаючи EVMbench як інструмент вимірювання та заклик до дії для спільноти безпеки.

Рейтинги виявлення та виправлення залишаються нижчими. Агентам у режимі виявлення іноді вдається знайти одну вразливість і припиняють пошук. Вони не досліджують весь код. У режимі виправлення виклик полягає у збереженні повної функціональності контракту при одночасному усуненні вразливості. Цей баланс досі викликає труднощі у моделів.

Обов’язково до прочитання: Безпека Wallet Trust: Як захистити свої активи

$1.78М Oracle-помилка, яку ніхто не помітив

Обставини мають значення. Дослідник безпеки evilcos на X повідомив, що DeFi-кредитна платформа Moonwell зазнала збитків приблизно на 1,78 мільйона доларів. Причиною стала помилка у конфігурації Oracle. Формула цінового фіду була написана неправильно, встановлюючи вартість cbETH у 1,12 долара замість приблизно 2200 доларів.

Це помилка низького рівня. Її має виявити ретельний аудит. Запит на злиття у GitHub для пропозиції MIP-X43 містив коміти, співавтором яких був Claude Opus 4.6 — найновіша та найпотужніша модель Anthropic на той час.

Аудитор смарт-контрактів pashov опублікував у X, що це, можливо, перший експлойт, пов’язаний із vibe-кодованим Solidity. Він уважно зазначив, що остаточну відповідальність несуть людські рецензенти. Аудитор безпеки підписує дозвіл перед тим, як щось потрапить у блокчейн. Але щось у цій ланці зламалося.

Що насправді створено для EVMbench

Бенчмарк включає сценарії вразливостей із аудиту безпеки блокчейну Tempo, спеціально створеного для високопродуктивних платежів у стабільконах L1. Це розширення переводить EVMbench у сферу контрактного коду, орієнтованого на платежі, де OpenAI очікує зростання активності стабільконів із застосуванням агентів.

Кожне завдання з експлуатації виконується у ізольованому середовищі Anvil. Транзакції відтворюються детерміновано. Система оцінювання обмежує використання небезпечних RPC-методів і була внутрішньо протестована для запобігання шахрайству агентів. Використовувані вразливості — історичні та публічно задокументовані.

OpenAI також виділяє 10 мільйонів доларів у кредитах API для прискорення кіберзахисту, з пріоритетом для відкритого програмного забезпечення та критичної інфраструктури. Їхній агент дослідження безпеки Aardvark розширюється у приватну бета-версію. Безкоштовне сканування коду для широко використовуваних відкритих проектів є частиною цієї ініціативи.

Питання vibe-кодування із реальними наслідками

Пост pashov у X підняв те, чого багато у сфері DeFi уникали. Коли AI пише виробничий Solidity-код і люди швидко його затверджують, рівень перевірки стає тонким. Інцидент із Moonwell показав, наскільки це може бути тонко.

OpenAI визнає, що кібербезпека за своєю природою має подвійне застосування. Їхня відповідь базується на доказах. Тренінги з безпеки, автоматичний моніторинг і контроль доступу до передових можливостей — це частина їхньої стратегії. Але 72,2% показник експлуатації на публічному бенчмарку — це число, яке не залишається непоміченим.

Повний набір завдань, інструменти та код оцінювання EVMbench тепер відкриті. Мета — дозволити дослідникам відстежувати зростання кіберздібностей AI та розвивати захист у тому ж темпі. Чи достатньо швидкий цей темп — питання, на яке ще ніхто не дав відповіді.

Переглянути оригінал

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Прокоментувати

0/400

Немає коментарів