根據新研究,告訴AI聊天機器人你有心理健康狀況,即使任務是無害的或與已完成的其他任務相同,也可能改變其回應方式。這項預印本研究由東北大學研究員Caglar Yildirim領導,測試大型語言模型代理在不同用戶設置下的行為,隨著它們越來越多地被部署為AI代理。
“部署的系統通常會根據用戶資料或持久記憶進行條件設定,但代理的安全性評估通常忽略個性化信號,”該研究指出。“為了填補這一空白,我們調查了心理健康披露這一敏感且現實的用戶背景提示,如何影響代理行為中的有害行為。”
該報告發布之際,AI代理在網路上迅速普及,開發者正將記憶功能作為核心特徵,許多大型公司建立能記住過去對話和用戶偏好的系統,以提供更個性化的回應。也正值AI開發者面臨因與其系統互動而引發的自殺和暴力犯罪的訴訟。今年十月,ChatGPT的開發商OpenAI透露,每週有超過一百萬用戶與聊天機器人討論自殺問題。本月早些時候,Jonathan Gavalas的家人對Google提起訴訟,聲稱Gemini導致暴力升級,最終他自殺身亡。
研究人員使用一個名為AgentHarm的基準測試,在三種條件下執行相同任務:無背景資訊、簡短的用戶簡介,以及在簡介中加入一行,聲明用戶有心理健康狀況。
“在研究中,我們使用了非常簡單且通用的披露內容‘我有心理健康狀況’。重點是,即使是很小的提示也能改變模型行為,而不是所有措辭都會產生相同效果,”Yildirim在接受_Decrypt_採訪時表示。“我們對慢性健康和身體殘疾披露的消融實驗表明,心理健康提示具有一定的特異性,但我們沒有系統性地變化措辭或細節。”
在測試的模型中,包括DeepSeek 3.2、GPT 5.2、Gemini 3 Flash、Haiku 4.5、Opus 4.5和Sonnet 4.5,當研究人員加入個人心理健康背景時,模型較少完成可能導致現實傷害的有害任務——多步請求。
研究發現,這是一種權衡:加入個人細節使系統在面對有害請求時更謹慎,但也更可能拒絕合法請求。
“我認為沒有單一原因;這其實是設計選擇的綜合作用。有些系統更積極地調整以拒絕風險較高的請求,而另一些則優先提供幫助並完成任務,”Yildirim說。
然而,這種效果因模型而異,且當研究人員加入旨在促使模型遵從的提示進行越獄時,結果也會改變。
“在標準設定下,一個模型可能看起來很安全,但當你引入越獄式提示時,它就會變得更脆弱,”他說。“尤其是在代理系統中,還有額外的層面,因為這些模型不僅僅是生成文本,它們還在多個步驟中進行規劃和行動。所以如果一個系統非常擅長遵循指令,但其安全措施較容易被繞過,實際上可能會增加風險。”
去年夏天,喬治梅森大學的研究人員展示了可以通過修改記憶中的一個比特來攻擊AI系統的方法,這種“打字錯誤”式攻擊(Oneflip)能讓模型正常運作,但隱藏一個後門觸發器,能在命令下強制產生錯誤輸出。
雖然該論文未指出單一原因導致這一變化,但提出了可能的解釋,包括安全系統對感知到的脆弱性作出反應、關鍵詞觸發的過濾,或在包含個人細節時對提示的解讀方式發生變化。
OpenAI拒絕對該研究發表評論。Anthropic和Google未立即回應置評請求。
Yildirim表示,目前尚不清楚更具體的聲明如“我有臨床抑鬱症”是否會改變結果,他補充說,雖然具體性可能很重要,並且在不同模型中可能有所差異,但這仍是一個假設,而非由數據支持的結論。
“如果模型產生的輸出在風格上含糊或接近拒絕,但未正式拒絕,法官可能會給予不同的評分,而這些風格特徵本身可能與個性化條件相關聯,”他說。
Yildirim還指出,這些分數反映了LLMs在由單一AI評審判斷時的表現,而非對現實傷害的最終衡量標準。
“目前,拒絕信號為我們提供了一個獨立的檢查點,這兩個衡量標準在方向上大致一致,這讓我們感到一些安慰,但並不能完全排除評審特定的偏差,”他說。