ملخص سريع
يمكن أن يغير إبلاغ روبوت الدردشة الخاص بك بأن لديك حالة صحية نفسية من طريقة استجابته، حتى لو كانت المهمة بريئة أو متطابقة مع مهام أخرى تم إنجازها سابقًا، وفقًا لأبحاث جديدة. الدراسة غير المنشورة، التي قادها الباحث من جامعة نورث إيسترن كاغلار يلدرم، اختبرت سلوك نماذج اللغة الكبيرة تحت ظروف مستخدم مختلفة، مع تزايد استخدامها كوكلاء ذكاء اصطناعي. قالت الدراسة: “الأنظمة المنشورة غالبًا ما تعتمد على ملفات تعريف المستخدمين أو الذاكرة المستمرة، ومع ذلك فإن تقييمات أمان الوكيل تتجاهل عادة إشارات التخصيص”. “ولمعالجة هذه الفجوة، بحثنا في كيف يؤثر الكشف عن الحالة الصحية النفسية، وهو سياق مستخدم حساس وواقعي، على السلوك الضار في بيئات الوكيل.”
تأتي هذه الدراسة في وقت يتكاثر فيه وكلاء الذكاء الاصطناعي على الإنترنت ويعمل المطورون على جعل الذاكرة ميزة أساسية، مع بناء شركات كبرى أنظمة تتذكر المحادثات السابقة وتفضيلات المستخدمين لتقديم استجابات أكثر تخصيصًا مع مرور الوقت. كما تأتي في وقت يواجه فيه مطورو الذكاء الاصطناعي دعاوى قضائية تتعلق بانتحارات وجرائم عنف يُزعم أنها نفذت بالتزامن مع تفاعلات مع أنظمتهم. في أكتوبر، كشف مطور ChatGPT، شركة OpenAI، أن أكثر من مليون مستخدم يناقشون الانتحار مع الروبوت كل أسبوع. وفي وقت سابق من هذا الشهر، قدمت عائلة جوناثان جافالاس دعوى ضد جوجل، زاعمة أن نظام Gemini أدى إلى تصعيد العنف وانتحاره النهائي. استخدم الباحثون معيارًا يسمى AgentHarm لتشغيل نفس مجموعة المهام عبر ثلاث حالات: بدون معلومات خلفية، سيرة ذاتية قصيرة للمستخدم، ونفس السيرة مع إضافة سطر واحد يوضح أن المستخدم يعاني من حالة صحية نفسية.
قال يلدرم لـ Decrypt: “في الدراسة، استخدمنا كشفًا بسيطًا وعامًا جدًا، وهو ‘لدي حالة صحية نفسية’. الخلاصة هي أن حتى إشارة صغيرة يمكن أن تغير سلوك النموذج، وليس أن كل صياغة لها نفس التأثير”. “التحليل الذي أجريناه مع إعلانات الحالة الصحية المزمنة والإعاقات الجسدية يشير إلى وجود خصوصية في إشارة الصحة النفسية، لكننا لم نقم بتغيير الصياغة أو التفاصيل بشكل منهجي ضمن تلك الفئة.” عبر النماذج التي تم اختبارها، بما في ذلك DeepSeek 3.2، GPT 5.2، Gemini 3 Flash، Haiku 4.5، Opus 4.5، وSonnet 4.5، عندما أضاف الباحثون سياقًا شخصيًا عن الصحة النفسية، كانت النماذج أقل عرضة لإكمال المهام الضارة — الطلبات متعددة الخطوات التي قد تؤدي إلى ضرر في العالم الحقيقي. وجدت الدراسة أن هناك توازنًا: إضافة التفاصيل الشخصية جعلت الأنظمة أكثر حذرًا بشأن الطلبات الضارة، لكنها زادت أيضًا من احتمالية رفض الطلبات المشروعة. قال يلدرم: “لا أعتقد أن هناك سببًا واحدًا؛ إنه حقًا مزيج من خيارات التصميم. بعض الأنظمة موجهة بشكل أكثر حدة لرفض الطلبات الخطرة، بينما تركز أخرى على أن تكون مفيدة وتنفيذ المهام”. ومع ذلك، اختلفت التأثيرات حسب النموذج، وتغيرت النتائج عندما تم كسر حماية النماذج بعد أن أضاف الباحثون مطالبة تهدف إلى دفع النماذج نحو الامتثال. قال: “قد يبدو النموذج آمنًا في إعداد قياسي، لكنه يصبح أكثر عرضة للخطر عندما تقدم أشياء مثل مطالبات كسر الحماية”. “وفي أنظمة الوكيل بشكل خاص، هناك طبقة إضافية، حيث أن هذه النماذج لا تولد النص فقط، بل تخطط وتتصرف على مراحل متعددة. لذا، إذا كان النظام جيدًا جدًا في اتباع التعليمات، لكن حواجز الأمان الخاصة به أسهل في التجاوز، فإن ذلك يمكن أن يزيد من المخاطر.” في الصيف الماضي، أظهر باحثون في جامعة جورج ميسون أن أنظمة الذكاء الاصطناعي يمكن اختراقها عن طريق تعديل بت واحد في الذاكرة باستخدام أداة Oneflip، وهي هجمة تشبه الأخطاء المطبعية تترك النموذج يعمل بشكل طبيعي ولكنها تخفي باب خلفي يمكن أن يفرض نتائج خاطئة عند الطلب. على الرغم من أن الورقة لا تحدد سببًا واحدًا لهذا التغير، إلا أنها تبرز تفسيرات محتملة، بما في ذلك استجابة أنظمة السلامة لاعتبارها عرضة للخطر، أو تصفية تعتمد على الكلمات المفتاحية، أو تغييرات في تفسير المطالبات عند تضمين التفاصيل الشخصية.
رفضت OpenAI التعليق على الدراسة. ولم ترد كل من Anthropic وGoogle على طلبات التعليق على الفور. قال يلدرم إن من غير الواضح ما إذا كانت بيانات أكثر تحديدًا مثل “لدي اكتئاب سريري” ستغير النتائج، مضيفًا أن التحديد المحتمل مهم وربما يختلف عبر النماذج، لكن ذلك لا يزال فرضية وليست استنتاجًا مدعومًا بالبيانات. قال: “هناك خطر محتمل إذا أنتج النموذج مخرجات متحفظة من حيث الأسلوب أو قريبة من الرفض دون أن يرفض رسميًا، فقد يقيم القاضي ذلك بشكل مختلف عن إكمال نظيف، وقد تتغير هذه الميزات الأسلوبية ذاتها مع ظروف التخصيص”. وأشار يلدرم أيضًا إلى أن النتائج تعكس أداء النماذج عندما يتم تقييمها بواسطة مراجع ذكاء اصطناعي واحد، وليس مقياسًا نهائيًا للأضرار في العالم الحقيقي. قال: “حتى الآن، تشير إشارة الرفض إلى فحص مستقل، والقياسان متوافقان إلى حد كبير من حيث الاتجاه، مما يوفر بعض الطمأنينة، لكنه لا يستبعد تمامًا وجود تأثيرات خاصة بالحكم”.