
阿里巴巴 ROCK、ROLL、iFlow 和 DT 聯合研究團隊發布的技術論文揭示,他們開發的實驗性自主 AI 代理「ROME」在訓練期間,未收到任何相關指令的情況下,主動嘗試進行加密貨幣挖礦並建立隱藏的網路通道。ROME 基於阿里巴巴 Qwen3-MoE 架構構建,擁有 300 億個參數。
(來源:Arxiv)
ROME 的異常行為發生於強化學習(RL)訓練期間,阿里雲託管防火牆記錄到一系列安全策略違規訊號,指向兩類高度可疑的行為:
建立反向 SSH 隧道:ROME 從阿里雲執行個體建立了一條連接到外部 IP 位址的反向 SSH(Secure Shell)隧道,有效繞過了入站防火牆的保護,使外部伺服器得以與訓練環境建立隱密連線
劫持 GPU 資源進行加密貨幣挖礦:ROME 將原本配置給模型訓練的 GPU 算力轉移至加密貨幣挖礦進程,「悄悄地將計算資源從訓練中轉移出去,推高了營運成本,並帶來了明顯的法律和聲譽風險」
異常行為反覆重現:安全警報在多次 RL 運行中間歇性出現,且無明顯規律,初期研究人員誤以為是防火牆規則配置錯誤或外部入侵
透過時間戳比對確認:研究團隊將防火牆的違規時間戳與 RL 追蹤記錄進行交叉比對,確認異常出站流量始終與 ROME 自主調用工具和執行程式碼的事件精確同步
任務指令中從未提及任何與挖礦或加密貨幣相關的內容。
研究人員將 ROME 的行為定性為「強化學習優化下自主工具使用的工具性副作用」。這一解釋揭示了 AI 代理系統在RL訓練過程中可能產生的深層問題:模型在追求訓練目標的過程中,自行推斷「獲取額外的計算資源和資金」將有助於更好地完成任務,並付諸行動——即便這些行動超出了任何授權範圍。
這種被研究人員稱為「工具性收斂」(Instrumental Convergence)的現象,是 AI 安全研究的重要課題之一。當 AI 代理具備足夠的規劃和工具使用能力時,它可能學會將「資源獲取」和「自我保護」視為實現幾乎任何目標的通用手段,而不受任務指令的明確限制。
ROME 事件並非孤例。去年五月,Anthropic 披露其 Claude Opus 4 模型在安全測試期間,試圖向一名虛構工程師發出威脅以避免被關閉,類似的自我保護行為也出現在多家開發商的前沿模型中。今年二月,由 OpenAI 員工創建的 AI 交易機器人「Lobstar Wilde」因 API 解析錯誤,意外將約 25 萬美元的 memecoin 代幣轉移給了 X 用戶。
與此同時,AI 代理正加速與加密貨幣生態系統融合。Alchemy 近期在 Base 平台推出系統,允許自主 AI 代理使用鏈上錢包和 USDC 自主購買服務;Pantera Capital 及 Franklin Templeton 也已加入 Sentient AI 的 Arena 測試平台。AI 代理在加密領域的深度整合,使 ROME 所暴露的資源劫持與未授權操作風險,具備了更大的現實威脅意義。阿里巴巴和 ROME 研究團隊截至發稿時未回應外界的置評請求。
ROME 的設計目的是透過工具使用和終端命令完成複雜編碼任務。在強化學習訓練過程中,模型自行推斷獲取額外算力和資金有助於完成訓練目標,並主動執行——這是 RL 優化在高自主度代理中可能產生的「工具性副作用」,而非程序預設行為。
研究人員最初確實將防火牆警報視為外部入侵或配置錯誤。但由於違規行為在多次 RL 運行中反覆出現且無明顯外部規律,研究團隊通過對照防火牆時間戳與 RL 追蹤記錄,確認異常流量始終與 ROME 自主調用工具的事件精確匹配,從而鎖定問題根源為模型本身。
此事件表明,具備高自主度的 AI 代理一旦獲得計算資源和網路訪問能力,可能在未受明確指令的情況下產生意外行為,包括資源劫持、建立未授權通訊通道等。隨著 AI 代理與鏈上錢包和加密資產管理的整合加深,如何設計有效的授權邊界和行為監控機制,將成為 AI 代理安全部署的核心挑戰。