أعلنت OpenAI عن إطلاق بروتوكول شبكة حاسوبٍ فائق جديد للذكاء الاصطناعي يحمل اسم MRC (Multipath Reliable Connection)، وقد قامت بالفعل بإطلاقه كمصدر مفتوح عبر مشروع Open Compute Project (OCP). طُوِّرت هذه التقنية من قِبَل OpenAI بالتعاون مع شركات منها AMD وMicrosoft وNVIDIA وIntel وBroadcom وغيرها، وتهدف إلى معالجة عنق الزجاجة في نقل البيانات بين وحدات GPU ضمن مجموعات تدريب ضخمة للغاية للذكاء الاصطناعي.
ما هو عنق الزجاجة الحقيقي في تدريب الذكاء الاصطناعي؟ كيفية تواصل وحدات GPU فيما بينها
تقول OpenAI إن عدد المستخدمين الأسبوعي لـ ChatGPT قد تجاوز 900 مليون، ما يعني أن أنظمة الذكاء الاصطناعي باتت تدريجياً خدمة على مستوى البنية التحتية. ولبناء احتياجات تدريب النماذج من الجيل التالي والاستدلال، ترى OpenAI أنه لا يكفي تطوير النماذج وحدها، بل يجب أيضاً إعادة تصميم بنية الشبكة.
أشارت OpenAI في مقال تقني إلى أن تدريب نماذج الذكاء الاصطناعي الكبيرة قد يتضمن، في خطوة تدريب واحدة، تبادل بيانات بين وحدات GPU بملايين المرات. وبمجرد أن يؤدي أي تأخير في الإرسال إلى تعطيل المزامنة الخاصة بالتدريب بالكامل، فقد ينتج عن ذلك إتلاف قدر كبير من الوقت لوحدات GPU المتبقية دون عمل.
ومع تزايد حجم الحواسيب الفائقة للذكاء الاصطناعي، تتضخم بسرعة مشكلات ازدحام الشبكات، وتعطل المبدلات (switches)، وتذبذب التأخير (jitter). وتعتقد OpenAI أن هذه أيضاً من أكثر تحديات التقنية مركزية في مشروع Stargate للحاسوب الفائق.
في الماضي، كانت معظم مراكز البيانات تعتمد بنى شبكية تُستخدم فيها مسار واحد فقط (single-path). لكن أكبر تغيير في MRC هو تمكين توزيع البيانات نفسها في وقت واحد عبر مئات المسارات.
ما هو MRC؟ OpenAI: جعل شبكة الذكاء الاصطناعي تتجنب العوائق تلقائياً
وفقاً لما ذكرته OpenAI وAMD، فإن المفهوم الأساسي لـ MRC يتمثل في:
تقسيم البيانات والسير في عدة مسارات في آنٍ واحد
تجاوز الأعطال تلقائياً على مستوى الميكروثانية
تقليل التأخير الناتج عن ازدحام الشبكة
الحفاظ على تشغيل وحدات GPU بشكل متزامن
وتصف AMD الشبكات التقليدية للذكاء الاصطناعي بأنها مثل طريق سريع لا يسير فيه سوى مسار واحد؛ فإذا حدث اختناق أو حادث فسيتأثر التقدم العام. أما MRC، فتمثل نظاماً ذكياً للمرور يتمتع بقدرة على تغيير المسار في الوقت الفعلي. وذهبت AMD إلى حد القول: «إن عنق الزجاجة الحقيقي عند التوسع في أحجام الذكاء الاصطناعي لم يعد يتمثل في GPU وCPU، بل في الشبكة».
لماذا تريد OpenAI تصميم بروتوكول شبكة بنفسها؟
الإشارة التي أطلقتها OpenAI في هذه المرة كانت واضحة للغاية: إن المنافسة على الذكاء الاصطناعي لم تعد مجرد منافسة على النماذج، بل أصبحت منافسة على كامل «بنية البنية التحتية للحاسوب الفائق». وذكرت OpenAI في المقال أنه قبل ظهور Stargate، كانت قد تعاونت مع شركائها على صيانة ثلاثة أجيال من الحواسيب الفائقة للذكاء الاصطناعي. ومن خلال هذه الخبرات، توصلت OpenAI إلى استنتاج مفاده أنه إذا كان الهدف هو استخدام القدرة الحاسوبية بفعالية ضمن نطاق Stargate، فيجب تقليل تعقيد كامل stack بشكل كبير. ويتضمن ذلك طبقة الشبكة أيضاً.
بعبارة أخرى، فإن منافسة Frontier Model في المستقبل لن تكون فقط حول من يملك نموذجاً أقوى، بل حول من يمكنه تشغيل عشرات الآلاف، وحتى الملايين، من وحدات GPU بشكل متزامن وبكفاءة أعلى.
وراء MRC يوجد Stargate: خطة مانهاتن التي تتبعها OpenAI
إن خلفية MRC ليست سوى Stargate LLC. وStargate هو مشروع كبير للبنية التحتية للذكاء الاصطناعي تدفعه OpenAI وSoftBank Group وOracle Corporation وMGX، وكان هدفه في البداية الاستثمار في البنية التحتية للذكاء الاصطناعي بما يصل إلى 500 مليار دولار في الولايات المتحدة. وذكرت OpenAI أنه تم تجاوز هدف مرحلي يناهز 10GW، كما أضيفت خلال آخر 90 يوماً أكثر من 3GW من السعة الجديدة للبنية التحتية للذكاء الاصطناعي.
الحاسوب الفائق في Stargate الواقع في Abilene بولاية تكساس، هو أحد ميادين النشر الرئيسية لـ MRC. وقالت OpenAI إن MRC قد تم دمجه ضمن أحدث واجهات الشبكات بسرعة 800Gb/s، وتم تشغيله فعلياً داخل مجموعات تدريب كبيرة.
نشر هذا المقال الذي أعلنته OpenAI حول بروتوكول شبكة الحاسوب الفائق لـ MRC! بالشراكة مع NVIDIA وAMD وMicrosoft لبناء بنية Stargate التحتية، وكان أول من نشره موقع سلسلة أخبار ABMedia.
مقالات ذات صلة
أنتروبيك (Anthropic) تقدّم كلود دريمز (Claude Dreams): يقوم الوكيل (Agent) بتنظيم الذاكرة تلقائيًا بين المهام، وإزالة التكرار والتناقضات
قدرة شركة Anthropic مقابل SpaceX: استحوذت على وحدة Colossus 1 كاملة تضم 220 ألف GPU، وClaude يرفع القيود عن السقف
مهندس في Coinbase: يمكن لوكلاء الذكاء الاصطناعي أن يعيدوا تشكيل نموذج إعلانات الويب
انثروبيك ترفع الحدّ الأقصى لقيود معدل كلود كود إلى الضعف بعد تأمين سعة 300 ميغاواط من خلال صفقة مع سبيس إكس
منصة توظيف بالذكاء الاصطناعي Ethos تُنجز جولة تمويل من الفئة A بقيمة 22.75 مليون دولار بقيادة a16z في 6 مايو