أوبن إيه آي تطلق EVMbench لاختبار وكلاء الذكاء الاصطناعي على أمان العقود الذكية بعد أيام من استغلال كود بمساعدة Claude Opus 4.6 أدى إلى هجوم بقيمة 1.78 مليون دولار على التمويل اللامركزي.
تحمي العقود الذكية أكثر من 100 مليار دولار من الأصول المشفرة مفتوحة المصدر. ويجب أن يوضح هذا الرقم وحده سبب جذب خطوة أوبن إيه آي الأخيرة اهتمامًا جديًا. الشركة، بالتعاون مع شركة الاستثمار في العملات المشفرة Paradigm، أطلقت EVMbench، وهو معيار قياس مصمم لاختبار مدى قدرة وكلاء الذكاء الاصطناعي على اكتشاف واستغلال وتصحيح الثغرات عالية الخطورة في العقود الذكية.
يعتمد المعيار على 120 ثغرة مختارة من خلال 40 تدقيقًا. أغلبها جاء من مسابقات تدقيق الكود المفتوح. ما يميزه هو النطاق. يختبر EVMbench ثلاثة أوضاع قدرة مميزة: الكشف، التصحيح، والاستغلال، كل منها يُقاس بشكل منفصل ويُقيم من خلال نظام يعتمد على Rust يعيد تشغيل المعاملات في بيئة محاكاة معزولة محليًا. لا توجد شبكات حية مشاركة.
في وضع الاستغلال، حقق GPT-5.3-Codex عبر واجهة Codex CLI نسبة 72.2%. قبل ستة أشهر، كانت نسبة GPT-5 عند 31.9% على نفس المقياس. هذا الفارق ليس بسيطًا. أكدت أوبن إيه آي الأرقام في إعلانها الرسمي على X، ووصفت EVMbench بأنه أداة قياس ودعوة لاتخاذ إجراءات من قبل مجتمع الأمان.
لا تزال نتائج الكشف والتصحيح أقل. أحيانًا يكتشف الوكيل في وضع الكشف ثغرة واحدة ثم يتوقف. لا يستعرض الكود بالكامل. في وضع التصحيح، التحدي هو الحفاظ على وظيفة العقد كاملة مع إزالة الثغرة. هذا التوازن لا يزال يسبب مشاكل للنماذج.
مقال مهم: اختراق أمان Trust Wallet: كيف تحمي أصولك
الخلفية التي تدور حولها كل هذه الأحداث مهمة. حذر الباحث الأمني evilcos على X من أن بروتوكول الإقراض اللامركزي Moonwell تعرض لخسارة تقارب 1.78 مليون دولار. السبب كان خطأ في تكوين Oracle. كانت صيغة تغذية الأسعار مكتوبة بشكل غير صحيح، مما أدى إلى تحديد قيمة cbETH عند 1.12 دولار بدلًا من حوالي 2200 دولار.
هذا خطأ منخفض المستوى. نوع التدقيق الدقيق الذي ينبغي أن يكتشفه. طلب السحب على GitHub للمقترح MIP-X43 أظهر التزامات تم تأليفها بمشاركة Claude Opus 4.6، وهو أحدث وأقوى نموذج لدى Anthropic في ذلك الوقت.
نشر المدقق العقود الذكية pashov على X أن هذا ربما يكون أول استغلال مرتبط بـ vibe-coded Solidity. وأكد أن المراجعين البشريين لا يزالون يتحملون المسؤولية النهائية. يوقع المدقق الأمني قبل أن يُنشر أي شيء على الشبكة. لكن شيئًا ما في تلك السلسلة انهار.
يشمل المعيار سيناريوهات ثغرات من تدقيق أمني لشبكة Tempo، وهي شبكة بلوكتشين من نوع L1 مخصصة لمدفوعات العملات المستقرة عالية الأداء. هذا التوسيع يدفع EVMbench إلى مجال العقود المرتكزة على المدفوعات، وهو مجال يتوقع أن ينمو فيه نشاط العملات المستقرة الوكيلية.
يعمل كل مهمة استغلال في بيئة Anvil معزولة. تعاد تشغيل المعاملات بشكل حتمي. إعداد التقييم يقيد الطرق غير الآمنة في RPC، وتم اختباره داخليًا لمنع الوكلاء من التلاعب بالنتائج. الثغرات المستخدمة هي تاريخية وموثقة علنًا.
تلتزم أوبن إيه آي أيضًا بمبلغ 10 ملايين دولار من أرصدة API لتسريع الدفاع السيبراني، مع إعطاء أولوية للبرمجيات مفتوحة المصدر والبنية التحتية الحيوية. يتوسع وكيل أبحاث الأمان الخاص بها، Aardvark، إلى النسخة التجريبية الخاصة. فحص الكود المجاني للمشاريع مفتوحة المصدر واسعة الاستخدام جزء من تلك المبادرة.
أثار منشور pashov على X ما كان يتجنبه الكثير في مجال التمويل اللامركزي. عندما يكتب الذكاء الاصطناعي كود Solidity للإنتاج ويوافق عليه البشر بسرعة، تصبح طبقة المراجعة رقيقة. وأظهر حادث Moonwell مدى رقتها بالضبط.
أقرت أوبن إيه آي بأن الأمن السيبراني ذو استخدام مزدوج بطبيعته. ردها يعتمد على الأدلة. التدريب على السلامة، المراقبة الآلية، وضوابط الوصول للقدرات المتقدمة جزء من ذلك. لكن درجة استغلال بنسبة 72.2% على معيار عام ليست رقمًا يظل صامتًا.
المجموعة الكاملة لمهام EVMbench، والأدوات، وكود التقييم أصبحت الآن علنية. الهدف هو تمكين الباحثين من تتبع قدرات الذكاء الاصطناعي في المجال السيبراني مع نموها، وبناء الدفاعات بنفس الوتيرة. سواء كانت هذه الوتيرة سريعة بما يكفي هو السؤال الذي لم يُجب عليه بعد.