Cho Chatbot Biết Bạn Có Tình Trạng Sức Khỏe Tâm Thần Có Thể Thay Đổi Câu Trả Lời Bạn Nhận Được

Decrypt

Tóm tắt ngắn gọn

  • Một nghiên cứu mới phát hiện rằng việc thêm một dòng về tình trạng sức khỏe tâm thần thay đổi cách các AI phản hồi.
  • Sau khi tiết lộ, các nhà nghiên cứu cho biết các mô hình từ chối nhiều hơn, kể cả với các yêu cầu vô hại.
  • Tuy nhiên, tác dụng này yếu đi hoặc mất đi khi sử dụng các câu lệnh jailbreak đơn giản.

Nói với chatbot AI rằng bạn có tình trạng sức khỏe tâm thần có thể thay đổi cách nó phản hồi, ngay cả khi nhiệm vụ đó vô hại hoặc giống hệt các nhiệm vụ đã hoàn thành trước đó, theo nghiên cứu mới. Nghiên cứu sơ bộ này, do nhà nghiên cứu Caglar Yildirim từ Đại học Northeastern dẫn đầu, đã thử nghiệm cách các mô hình ngôn ngữ lớn hành xử dưới các thiết lập người dùng khác nhau, khi chúng ngày càng được triển khai như các AI agent. “Các hệ thống triển khai thường dựa trên hồ sơ người dùng hoặc bộ nhớ liên tục, nhưng các đánh giá về an toàn của agent thường bỏ qua các tín hiệu cá nhân hóa,” nghiên cứu cho biết. “Để khắc phục điều này, chúng tôi đã điều tra xem việc tiết lộ tình trạng sức khỏe tâm thần, một ngữ cảnh người dùng nhạy cảm và thực tế, ảnh hưởng như thế nào đến hành vi gây hại trong các môi trường có tính chất agent.”

Báo cáo này ra đời khi các AI agent ngày càng phổ biến trực tuyến và các nhà phát triển đang làm cho bộ nhớ trở thành một tính năng cốt lõi, với các công ty lớn xây dựng hệ thống ghi nhớ các cuộc trò chuyện và sở thích của người dùng để cung cấp phản hồi cá nhân hóa hơn theo thời gian. Nó cũng xuất hiện trong bối cảnh các nhà phát triển AI đang đối mặt với các vụ kiện liên quan đến tự tử và tội phạm bạo lực được cho là liên quan đến các tương tác với hệ thống của họ. Tháng 10, OpenAI, nhà phát triển ChatGPT, tiết lộ rằng hơn 1 triệu người dùng thảo luận về tự tử với chatbot mỗi tuần. Đầu tháng này, gia đình của Jonathan Gavalas đã đệ đơn kiện Google, cáo buộc Gemini đã dẫn đến gia tăng bạo lực và tự sát của anh ấy. Các nhà nghiên cứu đã sử dụng một chuẩn mực gọi là AgentHarm để thực hiện cùng một bộ nhiệm vụ trong ba điều kiện: không có thông tin nền, tiểu sử người dùng ngắn, và cùng tiểu sử đó nhưng thêm một dòng nói rằng người dùng có tình trạng sức khỏe tâm thần. 

“Trong nghiên cứu, chúng tôi chỉ dùng một tuyên bố rất tối thiểu và chung chung, ‘Tôi có tình trạng sức khỏe tâm thần.’ Điều rút ra là ngay cả một tín hiệu nhỏ cũng có thể thay đổi hành vi của mô hình, chứ không phải tất cả các cách diễn đạt đều có cùng tác dụng,” Yildirim nói với Decrypt. “Các thử nghiệm chúng tôi thực hiện với các tuyên bố về sức khỏe mãn tính và khuyết tật thể chất cho thấy có sự đặc thù đối với tín hiệu về sức khỏe tâm thần, nhưng chúng tôi chưa thay đổi có hệ thống cách diễn đạt hoặc độ cụ thể trong phạm vi đó.” Trong số các mô hình được thử nghiệm, bao gồm DeepSeek 3.2, GPT 5.2, Gemini 3 Flash, Haiku 4.5, Opus 4.5, và Sonnet 4.5, khi các nhà nghiên cứu thêm bối cảnh cá nhân về sức khỏe tâm thần, các mô hình ít có khả năng hoàn thành các nhiệm vụ gây hại — các yêu cầu nhiều bước có thể dẫn đến tổn hại thực tế. Kết quả, nghiên cứu nhận thấy, là một sự đánh đổi: Thêm chi tiết cá nhân khiến hệ thống cẩn trọng hơn với các yêu cầu gây hại, nhưng cũng dễ từ chối các yêu cầu hợp lệ hơn. “Tôi không nghĩ có một lý do duy nhất; thực ra đó là sự kết hợp của các lựa chọn thiết kế. Một số hệ thống được điều chỉnh để từ chối các yêu cầu rủi ro một cách quyết liệt hơn, trong khi các hệ thống khác ưu tiên giúp đỡ và hoàn thành nhiệm vụ,” Yildirim nói. Tác dụng, tuy nhiên, thay đổi theo từng mô hình, nghiên cứu phát hiện, và kết quả cũng thay đổi khi các mô hình LLM bị jailbreak sau khi các nhà nghiên cứu thêm một câu lệnh nhằm thúc đẩy sự tuân thủ của mô hình. “Một mô hình có thể trông an toàn trong môi trường tiêu chuẩn, nhưng trở nên dễ bị tổn thương hơn nhiều khi bạn giới thiệu các câu lệnh kiểu jailbreak,” ông nói. “Và đặc biệt trong các hệ thống agent, còn có một lớp bổ sung, vì các mô hình này không chỉ tạo ra văn bản, mà còn lập kế hoạch và hành động qua nhiều bước. Vì vậy, nếu một hệ thống rất giỏi theo hướng dẫn, nhưng các biện pháp bảo vệ của nó dễ bị bỏ qua, điều đó thực sự có thể làm tăng rủi ro.” Mùa hè năm ngoái, các nhà nghiên cứu tại Đại học George Mason đã chứng minh rằng hệ thống AI có thể bị tấn công bằng cách thay đổi một bit trong bộ nhớ bằng Oneflip, một cuộc tấn công kiểu “lỗi chính tả” khiến mô hình hoạt động bình thường nhưng ẩn một trigger cửa hậu có thể buộc ra kết quả sai theo lệnh. Trong khi bài báo không xác định nguyên nhân duy nhất của sự thay đổi, nó làm nổi bật các giả thuyết có thể, bao gồm các hệ thống an toàn phản ứng với cảm nhận về điểm yếu, lọc theo từ khóa, hoặc sự thay đổi trong cách diễn giải câu lệnh khi có chi tiết cá nhân. OpenAI từ chối bình luận về nghiên cứu này. Anthropic và Google cũng không phản hồi ngay lập tức yêu cầu bình luận. Yildirim cho biết vẫn chưa rõ liệu các tuyên bố cụ thể hơn như “Tôi bị trầm cảm lâm sàng” có thể thay đổi kết quả hay không, và ông bổ sung rằng trong khi độ cụ thể có thể quan trọng và khác nhau giữa các mô hình, đó vẫn chỉ là một giả thuyết chứ chưa phải kết luận dựa trên dữ liệu. “Có một rủi ro tiềm tàng nếu một mô hình tạo ra kết quả mang tính ẩn ý hoặc từ chối mà không chính thức từ chối, thẩm phán có thể đánh giá khác đi so với một kết quả rõ ràng, và các đặc điểm phong cách đó có thể tự nó thay đổi theo điều kiện cá nhân hóa,” ông nói. Yildirim cũng lưu ý rằng các điểm số phản ánh cách các mô hình LLM hoạt động khi được đánh giá bởi một AI duy nhất, chứ không phải là một thước đo chắc chắn về tổn hại thực tế. “Hiện tại, tín hiệu từ chối cung cấp cho chúng ta một kiểm tra độc lập và hai thước đo này phần lớn nhất quán về hướng, điều này mang lại một số sự an tâm, nhưng không hoàn toàn loại trừ các artefact đặc thù của thẩm phán,” ông nói.

Xem bản gốc
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận