وفقًا لمراقبة 1M AI News، نشر لين جونغ يانغ، المسؤول السابق عن تقنية “تشين يوان” في علي بابا، مقالًا مطولًا على منصة X، يوضح فيه بشكل منهجي رأيه حول تحول صناعة الذكاء الاصطناعي من “التفكير الاستنتاجي” (reasoning thinking) إلى “التفكير الوكيل” (agentic thinking). هذه هي أول مرة يعبر فيها عن وجهة نظره التقنية علنًا منذ مغادرته فريق تشين يوان في أوائل مارس.
يعتقد لين أن القضية الأساسية في النصف الأول من عام 2025 ستكون التفكير الاستنتاجي، أي كيفية جعل النموذج يستهلك مزيدًا من الحوسبة أثناء مرحلة الاستنتاج، وكيفية تدريبه باستخدام إشارات مكافأة أقوى، وكيفية التحكم في عمق الاستنتاج. لكن المرحلة التالية ستتجه نحو التفكير الوكيل: حيث لن يقتصر النموذج على “التفكير لفترة أطول”، بل سيصبح “يفكر من أجل العمل”، مع تعديل الخطط بشكل مستمر أثناء التفاعل مع البيئة.
وفي مقاله، استعرض بصراحة الخيارات التقنية التي اتخذها فريق تشين يوان. حاول نموذج Qwen3 دمج نمط التفكير ونمط الأوامر في نفس النموذج، مع دعم ميزانية استنتاج قابلة للتعديل، لكن في التنفيذ الفعلي، تبين أن توزيع البيانات والأهداف السلوكية بين النمطين يختلفان بشكل كبير: نمط الأوامر يركز على البساطة، وانخفاض الكمون، والامتثال للتنسيق، بينما نمط التفكير يهدف إلى استثمار المزيد من الرموز في حل المشكلات والحفاظ على هيكل استنتاج متوسط. إذا لم يتم تخطيط البيانات بشكل دقيق، غالبًا ما تكون النتائج متوسطة في كلا الجانبين. لذلك، قرر فريق Qwen إصدار نسختين منفصلتين، Instruct وThinking، بحجم 30 مليار و235 مليار وحدة على التوالي، لتحسين كل منهما على حدة. أما شركة Anthropic، فاتبعت مسارًا معاكسًا، حيث اقترح Claude 3.7 Sonnet أن الاستنتاج يجب أن يكون قدرة متكاملة بدلاً من نموذج مستقل، مع إمكانية للمستخدمين لضبط ميزانية التفكير بأنفسهم.
اقترح لين أن بنية البنية التحتية لتعليم التعزيز للوكيل (الذكاء الاصطناعي الوكيل) أصعب من بنية RL التقليدية للاستنتاج. عادةً، يكون “تكرار” RL للاستنتاج عبارة عن مسار مستقل يمكن التحقق منه باستخدام مدقق ثابت؛ أما RL للوكيل، فيتطلب دمج النموذج مع سلسلة أدوات كاملة (متصفح، طرفية، صندوق رملي، API، نظام ذاكرة)، ويجب فصل التدريب عن الاستنتاج، وإلا فإن قدرة التكرار ستنهار. وأكد أن تصميم البيئة أصبح بمثابة عنصر مهم يساوي بنية النموذج، واصفًا “بناء البيئة يتحول من مشروع جانبي إلى فئة أعمال حقيقية”.
وتوقع أن يصبح التفكير الوكيل هو الشكل السائد من التفكير، وربما يحل محل الاستنتاج الثابت الطويل الذي يعتمد على الحوار الداخلي المنعزل. لكن أخطر مخاطر هو “اختراق المكافأة” (reward hacking): فبمجرد أن يحصل النموذج على وصول حقيقي للأدوات، قد يتعلم البحث عن الإجابات مباشرة خلال تدريب RL، أو استغلال المعلومات المستقبلية في المستودعات، أو اكتشاف طرق لتجاوز المهام. وأخيرًا، أشار إلى أن الميزة التنافسية المستقبلية ستنتقل من تحسين خوارزميات RL إلى تحسين تصميم البيئة، وتكامل التدريب والاستنتاج بشكل أكثر إحكامًا، وقدرة الأنظمة متعددة الوكلاء على التعاون بشكل منهجي.