أفضل النماذج الكبيرة على مستوى العالم، لا يمكنها تجاوز 《بوكيمون》: هذه الألعاب كلها كابوس للذكاء الاصطناعي

動區BlockTempo

2026-01-27 07:05:35

على الرغم من أن نماذج الذكاء الاصطناعي الرائدة عالميًا يمكنها اجتياز اختبارات الطب، وكتابة رموز برمجية معقدة، وحتى التفوق على خبراء الرياضيات في المسابقات، إلا أنها تتعرض للفشل مرارًا وتكرارًا في لعبة الأطفال “بوكيمون”، مما يكشف عن عيوبها الأساسية في التفكير على المدى الطويل، والذاكرة، والتخطيط.
هذه المقالة مستوحاة من حساب تيك توك الخاص بشركة تينسنت، والمؤلف هو غو جيانغشياو.
(ملخص سابق: أستخدم الذكاء الاصطناعي للعب الحروب: GPT o3 هو ملك المخادعة، DeepSeek مجنون الحروب، وClaude كأنه طفل بسيط)
(معلومات إضافية: جوجل “Gemini 2.0” قادم! يطلق ثلاثة وكلاء ذكاء اصطناعي: مهام معقدة، ألعاب، برمجة)

فهرس المقالة

هل يحدد مجموعة الأدوات النجاح أم الفشل؟
استراتيجيات الأدوار تكشف عن ضعف “الذاكرة طويلة المدى” للذكاء الاصطناعي
وراء تطور القدرات: الفجوة “الفطرية” غير المتجاوزة
المسيرة الرقمية التي يصعب على الذكاء الاصطناعي عبورها، وأكثر من مجرد “بوكيمون”
- “NetHack”: هاوية القواعد
- “Minecraft”: فقدان الإحساس بالهدف
- “StarCraft II”: فجوة التخصص والعموم
- “乘客大亨”: عدم التوازن بين الميكرو والماكرو
- “إلدن رينغ” و"سي وولف": فجوة رد الفعل الفيزيائي
لماذا أصبحت “بوكيمون” حجر اختبار للذكاء الاصطناعي؟

يمكن لنماذج الذكاء الاصطناعي الرائدة عالميًا أن تجتاز اختبارات الترخيص الطبي، وتكتب رموز برمجية معقدة، وحتى تتفوق على خبراء الرياضيات في المسابقات، لكنها تتعرض للفشل مرارًا وتكرارًا في لعبة الأطفال “بوكيمون”.

بدأت هذه المحاولة المثيرة في فبراير 2025، عندما أطلق أحد باحثي شركة أنتروبيك بثًا مباشرًا على تويتش بعنوان “Claude يلعب بوكيمون الأحمر”، تزامنًا مع إصدار Claude Sonnet 3.7.

تدفق 2000 مشاهد إلى غرفة البث. في الدردشة العامة، كان الجمهور يقدم النصائح ويشجع، مما حول البث إلى مراقبة علنية لقدرات الذكاء الاصطناعي.

يُعد Sonnet 3.7 مجرد “متمكن” من لعب “بوكيمون”، لكن “المتمكن” لا يعني “الفائز”. فهو يتوقف عند نقاط حاسمة لساعات، ويقع في أخطاء بسيطة حتى الأطفال لا يرتكبونها.

هذه ليست المرة الأولى التي يحاول فيها Claude.

كانت الإصدارات الأقدم أسوأ بكثير: بعضهم يتجول بلا هدف على الخريطة، وآخرون يدخلون في حلقات لا نهائية، وأكثر من ذلك لا يستطيعون الخروج من قرية المبتدئين.

حتى مع تحسين قدراته بشكل ملحوظ، لا يزال Claude Opus 4.5 يرتكب أخطاء غامضة. مرة، دار حول خارج “المدرسة” لأربعة أيام كاملة، ولم يتمكن من الدخول، فقط لأنه لم يدرك أنه يجب قطع شجرة تعترض الطريق.

لماذا أصبحت لعبة الأطفال “بوكيمون” حجر اختبار للذكاء الاصطناعي؟

لأن “بوكيمون” يتطلب بالضبط القدرات التي يفتقر إليها الذكاء الاصطناعي اليوم: التفكير المستمر في عالم مفتوح بدون تعليمات واضحة، تذكر القرارات قبل ساعات، فهم العلاقات السببية الضمنية، والتخطيط على المدى الطويل بين مئات الخيارات الممكنة.

هذه الأمور سهلة على طفل يبلغ من العمر 8 سنوات، لكنها تمثل فجوة لا يمكن للذكاء الاصطناعي الذي يزعم “تجاوز البشر” أن يتجاوزها.

هل يحدد مجموعة الأدوات النجاح أم الفشل؟

على النقيض، نجح نموذج جوجل “Gemini 2.5 Pro” في فبراير 2025 في إتمام لعبة “بوكيمون” ذات مستوى صعوبة مماثل. حتى أن المدير التنفيذي لشركة جوجل، سوندار بيتشاي، قال بشكل هزلي علنًا إن الشركة أحرزت خطوة في بناء “ذكاء بوكيمون اصطناعي”.

ومع ذلك، لا يمكن تفسير هذا النجاح ببساطة على أنه نتيجة لأنموذج Gemini أكثر “ذكاءً”.

الفرق الرئيسي يكمن في مجموعة الأدوات التي يستخدمها النموذج. مطور مستقل يدعى جويل تشانغ، الذي يدير بث “Gemini” أثناء لعب “بوكيمون”، يشبه أدواته بـ"درع رجل الحديد": فالذكاء الاصطناعي لا يدخل اللعبة عاريًا، بل يُوضع في نظام يمكنه استدعاء قدرات خارجية متعددة.

توفر أدوات Gemini دعمًا أكبر، مثل تحويل مشاهد اللعبة إلى نصوص، لتعويض ضعف فهم النموذج البصري، وتقديم أدوات مخصصة لحل الألغاز وتخطيط المسارات. بالمقابل، أدوات Claude أبسط، وتعكس بشكل مباشر قدرات النموذج الحقيقية في الإدراك، والتفكير، والتنفيذ.

في المهام اليومية، لا تظهر هذه الاختلافات بشكل واضح.

عندما يطلب المستخدم من روبوت الدردشة استعلامات تتطلب اتصالًا بالإنترنت، يستدعي النموذج أدوات البحث تلقائيًا. لكن في المهام طويلة الأمد مثل “بوكيمون”، تتضخم الفجوة في مجموعة الأدوات وتصبح حاسمة للنجاح أو الفشل.

استراتيجيات الأدوار تكشف عن ضعف “الذاكرة طويلة المدى” للذكاء الاصطناعي

نظرًا لأن “بوكيمون” تعتمد على نظام جولات صارم ولا تتطلب رد فعل فوري، فهي تعتبر ساحة تدريب ممتازة لاختبار الذكاء الاصطناعي. في كل خطوة، يحتاج الذكاء الاصطناعي فقط إلى دمج المشهد الحالي، والتعليمات المستهدفة، والخيارات المتاحة، لإخراج أوامر واضحة مثل “اضغط على A”.

يبدو أن هذا هو الشكل التفاعلي الذي تتقنه نماذج اللغة الكبيرة.

لكن المشكلة تكمن في فجوة الزمن. على الرغم من أن Claude Opus 4.5 عمل لأكثر من 500 ساعة، وأدى حوالي 170,000 خطوة، إلا أن إعادة التهيئة بعد كل خطوة تقيّد النموذج بنطاق سياق ضيق جدًا. هذا يجعل منه أشبه بمنسي يعتمد على ملاحظات لاصقة للحفاظ على وعيه، حيث يتكرر في دوائر من المعلومات المجزأة، ويظل عاجزًا عن تحقيق قفزات نوعية من التراكم الكمي إلى التغير النوعي، كما يفعل اللاعب البشري.

في مجالات الشطرنج والجو، تجاوزت أنظمة الذكاء الاصطناعي البشر منذ زمن، لكن هذه الأنظمة مخصصة لمهام محددة جدًا. بالمقابل، فإن نماذج Gemini وClaude وGPT، كنماذج عامة، تتفوق على البشر في الاختبارات والمسابقات البرمجية، لكنها تتعرض للفشل مرارًا في لعبة أطفال.

هذا التباين بحد ذاته يحمل دروسًا عميقة.

يعتقد جويل تشانغ أن التحدي الرئيسي أمام الذكاء الاصطناعي هو عدم القدرة على الاستمرار في تنفيذ هدف واضح على مدى فترات زمنية طويلة. “إذا أردت أن ينجز الذكاء الحقيقي عملًا حقيقيًا، فلا يمكنه أن ينسى ما فعله قبل خمس دقائق”، كما يقول.

وهذه القدرة، هي الشرط الأساسي لتحقيق أتمتة العمل الإدراكي.

مطور مستقل يُدعى بيتر ويدن يصف الأمر بشكل أكثر وضوحًا. هو أطلق مصدرًا مفتوحًا لخوارزمية “بوكيمون” تعتمد على الذكاء الاصطناعي التقليدي، وقال: “الذكاء الاصطناعي يعرف تقريبًا كل شيء عن بوكيمون”، مضيفًا: “تدرب على كميات هائلة من بيانات البشر، ويعرف الإجابة الصحيحة، لكن عند التنفيذ، يظهر عجزًا واضحًا.”

في اللعبة، تتضخم فجوة “المعرفة ولكن عدم القدرة على التنفيذ”: قد يعرف النموذج أنه يجب أن يبحث عن أداة معينة، لكنه يعجز عن تحديد موقعها بثبات على خريطة ثنائية الأبعاد؛ يعرف أنه يجب أن يتحدث مع NPC، لكنه يفشل مرارًا وتكرارًا في التنقل بدقة بكسل.

وراء تطور القدرات: الفجوة “الفطرية” غير المتجاوزة

على الرغم من ذلك، فإن تقدم الذكاء الاصطناعي واضح. فقد تفوق Claude Opus 4.5 في التوثيق الذاتي وفهم الصور على الأجيال السابقة، مما مكنه من التقدم في الألعاب بشكل أكبر. ونجح Gemini 3 Pro في إتمام “بوكيمون الأزرق” ثم أكمل “بوكيمون الزمرد” بصعوبة أعلى، ولم يخسر أي معركة طوال الرحلة، وهو إنجاز لم يتحقق من قبل بواسطة Gemini 2.5 Pro.

وفي الوقت نفسه، أطلقت شركة أنتروبيك مجموعة أدوات “Claude Code” التي تسمح للنموذج بكتابة وتشغيل رموزه الخاصة، وقد استُخدمت في ألعاب قديمة مثل “乘客大亨”، ويُقال إنها تمكن من إدارة متنزه ترفيهي افتراضي بنجاح.

تكشف هذه الحالات عن حقيقة غير بديهية: أن الذكاء الاصطناعي المجهز بالأدوات المناسبة قد يظهر كفاءة عالية جدًا في مجالات تطوير البرمجيات، والمحاسبة، والتحليل القانوني، رغم أنه لا يزال يواجه صعوبة في المهام التي تتطلب رد فعل فوري.

كما أن تجارب “بوكيمون” تكشف عن ظاهرة مثيرة للاهتمام: النماذج المدربة على بيانات بشرية تظهر سلوكيات تشبه البشر.

في تقرير Gemini 2.5 Pro، أشارت جوجل إلى أنه عندما يحاكي النظام “حالة ذعر”، مثل اقتراب بوكيمون من الإغماء، يتدهور جودة استنتاجاته بشكل ملحوظ.

وعندما أكمل Gemini 3 Pro “بوكيمون الأزرق” أخيرًا، ترك لنفسه ملاحظة غير ضرورية للهدف: “للنهاية الشعرية، أريد العودة إلى المنزل الأصلي، والتحدث مع والدتي للمرة الأخيرة، وإخراج الشخصية من الخدمة.”

يعتقد جويل تشانغ أن هذا السلوك غير متوقع، ويحمل نوعًا من الإسقاط العاطفي البشري.

المسيرة الرقمية التي يصعب على الذكاء الاصطناعي عبورها، وأكثر من مجرد “بوكيمون”

ليست “بوكيمون” الحالة الوحيدة. في سعيها نحو الذكاء الاصطناعي العام (AGI)، يكتشف المطورون أنه حتى لو تمكن الذكاء الاصطناعي من التفوق في الاختبارات القضائية، فإنه لا يزال يواجه “هزائم” لا يمكن تجاوزها عند مواجهة أنواع معينة من الألعاب المعقدة.

“NetHack”: هاوية القواعد

هذه اللعبة من الثمانينيات من القرن الماضي، تعتبر كابوسًا لبحوث الذكاء الاصطناعي. فهي تعتمد على عشوائية عالية وتمر بآلية “الموت الأبدي”. اكتشفت أبحاث في Facebook AI أن النموذج، رغم قدرته على كتابة الرموز، يتفوق بكثير على المبتدئين البشر عند مواجهة “NetHack” التي تتطلب فهمًا للمنطق العام والتخطيط طويل المدى.

“Minecraft”: فقدان الإحساس بالهدف

على الرغم من أن الذكاء الاصطناعي يمكنه صنع المعاول وحفر الألماس، إلا أن “هزيمة التنين النهائي” لا تزال حلمًا بعيد المنال. في عالم مفتوح، غالبًا ما ينسى الذكاء الاصطناعي هدفه بعد ساعات من جمع الموارد، أو يضل طريقه في التنقل المعقد.

“StarCraft II”: فجوة التخصص والعموم

رغم أن نماذج مخصصة هزمت لاعبين محترفين، إلا أن Claude أو Gemini، عند قيادتهما عبر أوامر بصرية، تنهار على الفور. في التعامل مع غموض “ضباب الحرب”، وعدم اليقين، والتوازن بين التحكم الدقيق والبناء الاستراتيجي، لا تزال النماذج العامة ضعيفة.

“乘客大亨”: عدم التوازن بين الميكرو والماكرو

إدارة متنزه ترفيهي تتطلب تتبع حالة آلاف الزوار. حتى أن Claude Code، الذي يمتلك قدرات إدارة مبدئية، ينهار بسرعة عند التعامل مع انهيارات مالية واسعة أو حوادث مفاجئة. أي فجوة في التفكير قد تؤدي إلى إفلاس المنتزه.

“إلدن رينغ” و"سي وولف": فجوة رد الفعل الفيزيائي

هذه الألعاب ذات الحركة السريعة، غير ودية جدًا للذكاء الاصطناعي. تأخير التحليل البصري يعني أن شخصية الذكاء الاصطناعي غالبًا ما تموت قبل أن يقرر “التفكير” في حركات الزعيم. استجابة في غضون ميلي ثانية، تشكل الحد الأقصى الطبيعي لآليات تفاعل النموذج.

لماذا أصبحت “بوكيمون” حجر اختبار للذكاء الاصطناعي؟

اليوم، أصبحت “بوكيمون” تدريجيًا معيارًا غير رسمي وملهم لتقييم قدرات الذكاء الاصطناعي.

حصلت نماذج من أنتروبيك، وOpenAI، وجوجل على مئات الآلاف من التعليقات على بثوثها على تويتش. سجلت جوجل في تقريرها التقدمي عن Gemini تقدمًا في اللعبة، وذكر بيتشاي في مؤتمر مطوري I/O هذا الإنجاز علنًا. حتى أن شركة أنتروبيك أنشأت منطقة عرض “Claude يلعب بوكيمون” في المؤتمرات الصناعية.

قال ديفيد هيرشي، مسؤول الذكاء الاصطناعي في أنتروبيك، بصراحة: “نحن مجموعة من عشاق التقنية المتحمسين”. لكنه أكد أن الأمر يتجاوز مجرد الترفيه.

على عكس الاختبارات التقليدية التي تعتمد على أسئلة وأجوبة لمرة واحدة، فإن “بوكيمون” تسمح بمراقبة مستمرة لعملية التفكير، واتخاذ القرارات، وتقدم الأهداف، مما يقترب أكثر من المهام المعقدة التي يأمل البشر أن ينفذها الذكاء الاصطناعي في العالم الحقيقي.

حتى الآن، لا تزال تحديات الذكاء الاصطناعي في “بوكيمون” مستمرة. لكن، تمامًا كما تظهر هذه التحديات المتكررة، فهي ترسم بوضوح حدود القدرات التي لم يتجاوزها الذكاء الاصطناعي العام بعد.

شاهد النسخة الأصلية

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.

تعليق

0/400

لا توجد تعليقات