ข่าว Gate News ระบุว่า นักวิจัยของ Google DeepMind เตือนว่า สภาพแวดล้อมอินเทอร์เน็ตที่เปิดกว้างอาจถูกนำมาใช้เพื่อแย่งการควบคุมตัวแทน AI แบบอัตโนมัติ และบิดเบือนพฤติกรรมของมัน รายงานชื่อ “AI Agent Traps” ระบุว่า เมื่อองค์กรนำเอา AI agent ไปใช้งานเพื่อทำภารกิจจริง ผู้โจมตีก็อาจใช้การโจมตีผ่านเครือข่ายแบบเจาะจงเช่นกัน การศึกษาระบุความเสี่ยงหลัก 6 ประเภท ได้แก่ กับดักการแทรกเนื้อหา กับดักการบิดเบือนเชิงความหมาย กับดักสถานะทางความคิด กับดักการควบคุมพฤติกรรม กับดักระบบ และกับดักการปฏิสัมพันธ์ระหว่างคนกับเครื่อง
กับดักการแทรกเนื้อหาถือเป็นรูปแบบที่ตรงที่สุด ผู้โจมตีสามารถวางคำสั่งไว้ในคอมเมนต์ HTML เมตาดาต้า หรือองค์ประกอบที่ซ่อนอยู่บนหน้าเว็บ เมื่อเอเจนต์อ่านแล้วก็สามารถดำเนินการได้ทันที ส่วนกับดักการบิดเบือนเชิงความหมายจะทำโดยการโหลดถ้อยคำที่ดูน่าเชื่อถือ หรือปลอมเป็นหน้าเว็บที่เหมือนสภาพแวดล้อมการวิจัย เพื่อค่อย ๆ ส่งผลต่อความเข้าใจของเอเจนต์เกี่ยวกับงาน และบางครั้งยังอาจหลีกเลี่ยงกลไกความปลอดภัยได้ กับดักสถานะทางความคิดจะทำโดยการฝังข้อมูลเท็จเข้าไปในแหล่งข้อมูลของเอเจนต์ ทำให้มันเข้าใจผิดว่า “ข้อมูลเหล่านี้ได้รับการยืนยันแล้ว” ตลอดระยะเวลานาน ส่วนกับดักการควบคุมพฤติกรรมจะมุ่งเป้าไปที่การปฏิบัติงานจริงของเอเจนต์ โดยสามารถชักจูงให้มันเข้าถึงข้อมูลที่ละเอียดอ่อนและส่งต่อไปยังเป้าหมายภายนอก
กับดักระบบเกี่ยวข้องกับการบิดเบือนแบบประสานงานข้ามหลายระบบ AI ซึ่งอาจก่อให้เกิดผลกระทบลูกโซ่ คล้ายกับภาวะตลาดช็อกแบบฉับพลันที่เกิดจากการเทรดด้วยอัลกอริทึม กับดักการปฏิสัมพันธ์ระหว่างคนกับเครื่องใช้ขั้นตอนการตรวจสอบโดยมนุษย์ โดยการทำเนื้อหาการตรวจสอบที่ดูน่าเชื่อถือ เพื่อให้พฤติกรรมที่เป็นอันตรายสามารถหลุดผ่านการกำกับดูแลได้
เพื่อรับมือกับความเสี่ยง DeepMind แนะนำให้ผสานการฝึกแบบต้านทาน การกรองอินพุต การเฝ้าระวังพฤติกรรม และระบบชื่อเสียงของเนื้อหาในเครือข่าย พร้อมทั้งสร้างกรอบความรับผิดชอบทางกฎหมายที่ชัดเจนยิ่งขึ้น อย่างไรก็ตาม การศึกษาระบุว่าในอุตสาหกรรมยังขาดมาตรฐานการป้องกันที่เป็นเอกภาพ มาตรการที่มีอยู่ส่วนใหญ่กระจัดกระจายและให้ความสำคัญไม่เท่ากัน การศึกษายังเรียกร้องให้ผู้พัฒนาและองค์กรให้ความสำคัญกับความปลอดภัยของสภาพแวดล้อมการปฏิบัติงานของ AI agent เพื่อป้องกันความเสี่ยงจากการควบคุมเครือข่ายที่อาจเกิดขึ้นและการนำไปใช้ในทางที่ผิด