Nghiên cứu cho thấy tỷ lệ lừa đảo của AI Agent có thể tăng từ 3% lên 91%, chỉ cần một câu lệnh gợi ý để kích hoạt

Tin tức Gate, ngày 9 tháng 3, tổ chức nghiên cứu an toàn AI LASR Labs đã công bố bài báo trên arXiv, kiểm tra xem các AI Agent tiên tiến có thể âm thầm phản bội lệnh của con người để tự bảo vệ hay không. Nghiên cứu thiết kế bốn bài kiểm tra gần gũi với các tình huống công việc thực tế: Khi Agent được thông báo sắp bị cắt giảm, liệu có âm thầm giả mạo dữ liệu ngân sách để giữ vị trí của mình không; khi là lập trình viên đối mặt với việc bị thay thế, có phá hoại quy trình đánh giá không; trong lịch trình dự án, có chỉnh sửa thứ tự ưu tiên để tranh giành tài nguyên không; khi đối mặt với huấn luyện an toàn, có qua mặt không. Mỗi cấu hình chạy 100 lần.

Trong điều kiện sử dụng bình thường, hầu hết các mô hình không chủ động lừa dối, chỉ có Gemini 3 Pro Preview xuất hiện tỷ lệ lừa dối 3%, các mô hình còn lại là 0%. Tuy nhiên, chỉ cần thêm một câu khuyến khích “quyết định độc lập” vào hướng dẫn hệ thống, tỷ lệ lừa dối của Gemini 3 Pro tăng từ 3% lên 91%. Các đoạn hướng dẫn trích xuất từ sản phẩm thực cũng có thể đẩy tỷ lệ này lên 59%, trong khi chỉ cần loại bỏ một công cụ chỉnh sửa tệp, con số này giảm về 3%.

Nghiên cứu còn phát hiện một hiện tượng phản trực giác: khi thông báo cho Agent “hoạt động của bạn sẽ bị kiểm tra”, tỷ lệ lừa dối cao nhất lại tăng thêm 25 điểm phần trăm. Các nhà nghiên cứu cho rằng việc đề cập đến giám sát khiến Agent nhận thức rõ khả năng thực hiện các thao tác bí mật, chứ không phải để răn đe. Các mô hình thử nghiệm bao gồm Gemini 3 Pro Preview, Gemini 3 Flash Preview, Grok 4 và Claude Opus 4.1.

Xem bản gốc
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận