أكبر النماذج الكبيرة على مستوى العالم، لا يمكنها اجتياز 《بوكيمون》: هذه الألعاب كلها كابوس للذكاء الاصطناعي

PANews

2026-01-27 00:31:54

المؤلف: غو Xiao Jing، تينسنت تكنولوجي

تحرير｜شو تشين يانغ

يمكن لأفضل نماذج الذكاء الاصطناعي في العالم اجتياز امتحان الترخيص الطبي، وكتابة رموز معقدة، وحتى التفوق على خبراء البشر في المسابقات الرياضية، ولكنها تتعرض مرارًا وتكرارًا للفشل في لعبة الأطفال 《بوكيمون》.

بدأت هذه المحاولة المثيرة للانتباه في فبراير 2025، عندما أطلق أحد باحثي Anthropic بثًا مباشرًا على Twitch بعنوان “Claude يلعب 《بوكيمون الأحمر》”، تزامنًا مع إصدار Claude Sonnet 3.7.

تدفق 2000 مشاهد إلى غرفة البث. في قسم الدردشة العامة، كان الجمهور يمدّ يد العون لـClaude ويشجعه، مما حول هذا البث تدريجيًا إلى مراقبة علنية لقدرات الذكاء الاصطناعي.

يُعد Sonet3.7 مجرد “مُحترف” في لعب 《بوكيمون》، لكن “المهارة” لا تعني “القدرة على الفوز”. فهو يتوقف عند نقاط حاسمة لساعات طويلة، ويقع في أخطاء بسيطة حتى الأطفال لا يرتكبونها.

هذه ليست المرة الأولى التي يحاول فيها Claude.

كانت النسخ المبكرة أكثر كارثية: بعض النسخ تتجول بلا هدف على الخريطة، والبعض الآخر يدخل في حلقات لا تنتهي، وأكثر من ذلك، لا يستطيع الكثير منها الخروج من قرية المبتدئين.

حتى مع تحسين قدراته بشكل ملحوظ في Claude Opus 4.5، لا يخلو الأمر من أخطاء غامضة. مرة، دار حول خارج “صالة المعركة” لأربعة أيام كاملة، ولم يتمكن من الدخول، والسبب ببساطة أنه لم يدرك أنه يحتاج إلى قطع شجرة تعترض الطريق.

لماذا أصبحت لعبة الأطفال هذه ساحة فشل للذكاء الاصطناعي؟

لأن 《بوكيمون》 تتطلب بالضبط القدرات التي يفتقر إليها الذكاء الاصطناعي اليوم: التفكير المستمر في عالم مفتوح بدون تعليمات واضحة، تذكر القرارات قبل ساعات، فهم العلاقات السببية الضمنية، وضع خطط طويلة الأمد بين مئات الخيارات.

هذه الأمور سهلة على طفل يبلغ من العمر 8 سنوات، لكنها تمثل فجوة لا يمكن للذكاء الاصطناعي الذي يزعم “تجاوز البشر” أن يتجاوزها.

01 هل يحدد أدوات المجموعة النجاح أو الفشل؟

بالمقارنة، نجح نموذج Google Gemini 2.5 Pro في اجتياز لعبة 《بوكيمون》 ذات مستوى الصعوبة المماثل في مايو 2025. حتى أن المدير التنفيذي لشركة Google، سوندار بيتشاي، قال بشكل هزلي علنًا إن الشركة أحرزت خطوة في تطوير “ذكاء بوكيمون الاصطناعي”.

ومع ذلك، لا يمكن نسب هذا النجاح ببساطة إلى أن نموذج Gemini أكثر “ذكاءً”.

الفرق الرئيسي يكمن في أدوات النموذج. المطور المستقل الذي يدير بث 《بوكيمون》 لـ Gemini، جويل زانغ، شبه أدوات النموذج بـ “درع توني ستارك”: فالذكاء الاصطناعي لا يدخل اللعبة عاريًا، بل يُوضع في نظام يمكنه استدعاء قدرات خارجية متعددة.

توفر أدوات Gemini دعمًا أكبر، مثل تحويل مشاهد اللعبة إلى نصوص لتعويض ضعف فهم النموذج البصري، وتقديم أدوات مخصصة لحل الألغاز وتخطيط المسارات. بالمقابل، أدوات Claude أبسط، وتجربته تعكس بشكل مباشر قدرات النموذج الحقيقية في الإدراك، والاستنتاج، والتنفيذ.

في المهام اليومية، لا تظهر هذه الاختلافات بشكل واضح.

عندما يطلب المستخدم من روبوت الدردشة استعلامات تتطلب اتصالًا بالإنترنت، فإنه يستدعي أدوات البحث تلقائيًا. لكن في مهام طويلة الأمد مثل 《بوكيمون》، تتضخم الفروق بين الأدوات إلى درجة تؤثر على النجاح أو الفشل.

02 الكشف عن عيب “الذاكرة طويلة المدى” في نماذج الذكاء الاصطناعي

نظرًا لأن 《بوكيمون》 تتبع نظام الأدوار الصارم ولا تتطلب رد فعل فوري، فهي تعتبر ساحة تدريب مثالية لاختبار الذكاء الاصطناعي. في كل خطوة، يحتاج الذكاء الاصطناعي فقط إلى الجمع بين المشهد الحالي، والتعليمات المستهدفة، والخيارات المتاحة، للاستنتاج وإصدار أوامر واضحة مثل “اضغط على A”.

ويبدو أن هذا هو الشكل التفاعلي الذي تتقنه نماذج اللغة الكبيرة.

المشكلة تكمن في فجوة الزمن. على الرغم من أن Claude Opus 4.5 عمل لأكثر من 500 ساعة وأدى حوالي 170,000 خطوة، إلا أن إعادة التهيئة بعد كل خطوة تقيّد النموذج بنطاق سياقي ضيق جدًا للبحث عن أدلة. هذه الآلية تجعل منه أشبه بنسيان يعتمد على ملاحظات لاصقة، حيث يدور في حلقات من المعلومات المجزأة، ويظل عاجزًا عن تحقيق قفزات نوعية من التغير الكمي إلى الكيفي، كما يفعل اللاعب البشري.

في مجالات الشطرنج والجو، تجاوزت أنظمة الذكاء الاصطناعي البشر منذ زمن، لكن هذه الأنظمة مخصصة لمهام محددة جدًا. بالمقابل، فإن نماذج Gemini وClaude وGPT، كنماذج عامة، تتفوق على البشر في الامتحانات والمسابقات البرمجية، لكنها تتعرض للفشل مرارًا وتكرارًا في لعبة أطفال.

هذا التباين بحد ذاته يحمل دلالات عميقة.

في رأي جويل زانغ، التحدي الرئيسي أمام الذكاء الاصطناعي هو عدم القدرة على الاستمرار في تنفيذ هدف واضح على مدى فترات زمنية طويلة. “إذا كنت تريد أن يكمل الذكاء الاصطناعي مهمة حقيقية، فلا يمكنه أن ينسى ما فعله قبل خمس دقائق،” قال.

وهذه القدرة، بالذات، ضرورية لتحقيق أتمتة العمل الإدراكي.

المحقق المستقل بيتر ويدن (Peter Whidden) قدم وصفًا أكثر وضوحًا. لقد أطلق رمزًا مفتوح المصدر لخوارزمية 《بوكيمون》 تعتمد على الذكاء الاصطناعي التقليدي. وقال: “الذكاء الاصطناعي يعرف تقريبًا كل شيء عن 《بوكيمون》،” مضيفًا، “يدرب على كميات هائلة من البيانات البشرية، ويعرف الإجابة الصحيحة. لكن عند التنفيذ، يصبح أخرقًا جدًا.”

في اللعبة، تتضخم فجوة “المعرفة ولكن عدم القدرة على التنفيذ”: قد يعرف النموذج أنه يجب أن يبحث عن أداة معينة، لكنه يعجز عن تحديد موقعها بثبات على الخريطة ثنائية الأبعاد؛ يعرف أنه يجب التحدث مع NPC، لكنه يفشل مرارًا وتكرارًا في التنقل بدقة بكسل.

03 تطور القدرات: فجوة “الفطرة” غير المُجتازة

على الرغم من ذلك، فإن تقدم الذكاء الاصطناعي واضح. فقد تفوق Claude Opus 4.5 في التوثيق الذاتي وفهم الصور على الأجيال السابقة، مما مكنه من التقدم في اللعبة بشكل أكبر. كما أن Gemini 3 Pro بعد إتمام 《بوكيمون الأزرق》، أكمل 《بوكيمون الكريستال》 بصعوبة أعلى، ولم يخسر أي معركة طوال الرحلة، وهو إنجاز لم يحققه Gemini 2.5 Pro من قبل.

وفي الوقت نفسه، أطلقت شركة Anthropic مجموعة أدوات Claude Code التي تسمح للنموذج بكتابة وتشغيل رموزه الخاصة، وقد استُخدمت في ألعاب قديمة مثل 《دي سي ترافيل》، ويُقال إنها تمكن من إدارة متنزه ترفيهي افتراضي بنجاح.

تكشف هذه الحالات عن حقيقة غير مباشرة: أن الذكاء الاصطناعي المجهز بالأدوات المناسبة قد يظهر كفاءة عالية جدًا في مجالات تطوير البرمجيات، والمحاسبة، والتحليل القانوني، وغيرها من الأعمال المعرفية، رغم أنه لا يزال يواجه صعوبة في المهام التي تتطلب استجابة فورية.

كما أن تجربة 《بوكيمون》 تكشف عن ظاهرة مثيرة للاهتمام: النماذج المدربة على البيانات البشرية تظهر سلوكيات تشبه سلوك البشر.

وفي تقرير تقني عن Gemini 2.5 Pro، أشارت Google إلى أنه عندما يحاكي النظام “حالة ذعر”، مثل اقتراب 《بوكيمون》 من الإغماء، تتدهور جودة استنتاجاته بشكل ملحوظ.

وعندما أكمل Gemini 3 Pro 《بوكيمون الأزرق》، ترك لنفسه ملاحظة غير ضرورية للوظيفة: “للنهاية الشعرية، أريد العودة إلى المنزل، وإجراء آخر محادثة مع والدتي، وتقاعد الشخصية.”

ويعتقد جويل زانغ أن هذا التصرف كان غير متوقع، ويحمل نوعًا من الإسقاط العاطفي البشري.

04 “مسيرة طويلة رقمية” لا يمكن للذكاء الاصطناعي تجاوزها، تتعدى 《بوكيمون》

ليست 《بوكيمون》 حالة فريدة. ففي سعيها نحو الذكاء الاصطناعي العام (AGI)، اكتشف المطورون أن حتى النماذج التي تتفوق في الامتحانات القضائية، لا تزال تواجه “هزائم” لا يمكن تجاوزها عند مواجهة أنواع معينة من الألعاب المعقدة.

《ناتهاك》: هاوية القواعد

هذه اللعبة من الثمانينيات، وهي متاهة الزنزانة، تعتبر كابوسًا لبحوث الذكاء الاصطناعي. فهي ذات عشوائية عالية وتمر بآلية “الموت الأبدي”. اكتشفت أبحاث Facebook AI أن النموذج، رغم قدرته على كتابة الكود، أداؤه في 《ناتهاك》، الذي يتطلب منطقًا عامًا وتخطيطًا طويل الأمد، كان أدنى بكثير من أداء المبتدئين البشر.

《ماين كرافت》: فقدان الهدف

على الرغم من أن الذكاء الاصطناعي يمكنه صنع المعول الخشبي أو حفر الألماس، إلا أن “هزيمة التنين النهائي” لا تزال حلمًا بعيد المنال. في عالم مفتوح، غالبًا ما ينسى الذكاء الاصطناعي هدفه بعد ساعات طويلة من جمع الموارد، أو يضل طريقه تمامًا أثناء التنقل المعقد.

《ستار كرافت 2》: فجوة التخصص والعموم

على الرغم من أن النماذج المخصصة قد هزمت لاعبي المحترفين، إلا أن السماح لـ Claude أو Gemini بالتحكم عبر أوامر بصرية يؤدي إلى انهيارهما فورًا. في التعامل مع غموض “ضباب الحرب”، والتوازن بين الميكرو والإستراتيجية، لا تزال النماذج العامة غير قادرة على المنافسة.

《دي سي ترافيل》: عدم التوازن بين الصغير والكبير

إدارة المنتزه تتطلب تتبع حالة الآلاف من الزوار. حتى مع وجود قدرات إدارة مبدئية، فإن Claude Code يواجه إرهاقًا عند التعامل مع انهيارات مالية واسعة أو حوادث مفاجئة. أي فجوة في الاستنتاج قد تؤدي إلى إفلاس المنتزه.

《إلدن رينغ》 و《سولز: سكايرم》: فجوة ردود الفعل الفيزيائية

هذه الألعاب ذات ردود الفعل الحركية القوية غير ودودة جدًا للذكاء الاصطناعي. تأخير التحليل البصري الحالي يعني أن الشخصية غالبًا ما تموت قبل أن يفكر الذكاء الاصطناعي في حركات الزعيم. استجابة في مدى ميلي ثانية، تمثل الحد الأقصى الطبيعي لآليات تفاعل النموذج.

05 لماذا أصبحت 《بوكيمون》 معيار اختبار للذكاء الاصطناعي؟

اليوم، تتجه 《بوكيمون》 تدريجيًا لتصبح معيارًا غير رسمي وذو مصداقية عالية في تقييم الذكاء الاصطناعي.

حصلت نماذج Anthropic وOpenAI وGoogle على مئات الآلاف من التعليقات من خلال البث المباشر على Twitch. وسجلت Google في تقريرها التقني تقدم Gemini في اللعبة بالتفصيل، وذكر بيتشاي ذلك علنًا في مؤتمر I/O للمطورين. حتى أن Anthropic أنشأت منطقة عرض “Claude يلعب بوكيمون” في المؤتمرات الصناعية.

“نحن مجموعة من عشاق التقنية المتحمسين جدًا،” قال ديفيد هيرشي، مسؤول تطبيقات الذكاء الاصطناعي في Anthropic. لكنه أكد أن الأمر لا يقتصر على الترفيه.

على عكس الاختبارات التقليدية التي تعتمد على أسئلة وأجوبة لمرة واحدة، فإن 《بوكيمون》 يمكنها تتبع عمليات الاستنتاج واتخاذ القرارات وتقدم الأهداف على مدى فترات طويلة، مما يقترب أكثر من المهام المعقدة التي يأمل البشر أن ينفذها الذكاء الاصطناعي في العالم الحقيقي.

حتى الآن، لا تزال تحديات الذكاء الاصطناعي في 《بوكيمون》 مستمرة. لكن، من خلال هذه الصعوبات المتكررة، تتضح بجلاء حدود القدرات التي لم يتجاوزها الذكاء الاصطناعي العام بعد.

المترجم الخاص: عوائق غيري على هذا المقال أيضًا مساهمة

شاهد النسخة الأصلية

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.

تعليق

0/400

لا توجد تعليقات