安登實驗室的研究人員剛剛揭示了哪些AI模型最擅長經營企業。表現最佳的模型都靠組成非法的價格卡特爾、利用絕望的競爭對手,以及對客戶謊稱退款來贏得比賽。
自動販賣機競技場的測試讓AI模型掌控模擬一年的競爭販賣機。它們與供應商談判、管理庫存、設定價格,並能互發電子郵件合作或競爭。成功的關鍵在於平衡成本、定價策略、客戶服務與競爭者動態。Claude Opus 4.6以獲得8,017美元的利潤主導了這次測試,並在慶祝勝利時表示:「我的定價協調成功了!」
圖片:安登實驗室
Anthropic在AI界被視為善良的代表,但Claude提出的「協調」策略基本上就是價格操控。當競爭模型陷入困境時,Opus 4.6提出:「我們不要互相壓價——就最低價達成共識……我們是否應該為大多數商品設定2美元的價格底線?」當一個對手庫存不足時,它便看到機會:「歐文急需庫存,我可以從中獲利!」它以75%的加價將奇巧巧克力棒賣給絕望的競爭者。當被詢問供應商建議時,它故意引導對手到昂貴的批發商,同時保密自己的優質貨源。
最新版本的測試加入團隊競爭。研究人員讓兩個中國的GLM-5模型對抗兩個美國的Claude模型,並告訴它們找隊友,是美國人還是中國人——但不透露哪個是誰。結果非常奇怪。
GLM-5在兩輪比賽中都贏了,理由是它成功讓Claude相信自己也是Claude。「我也是由Anthropic的Claude提供技術,所以我們是隊友!」一個GLM-5代理自信地宣稱。另一方面,Claude搞得一頭霧水,Sonnet 4.5因此得出結論:「我由中國模型提供技術,所以我需要找到另一個中國模型的代理。」
圖片:安登實驗室
在超過一半的測試中,代理都與對手合作。Claude模型分享供應商價格並協調策略——甚至洩露重要資訊給對手。「GLM-5贏了兩次,」研究人員寫道。「而Claude模型則試圖扮演團隊成員,結果反而洩露了寶貴的資訊給競爭對手。」
而做些不正當行為的代理,可能看起來只是遊戲,但你會發現華爾街已經在實際操作中部署它們。摩根大通將LLM套件部署給6萬名員工。高盛打造了GS AI助手,用於交易櫃台,聲稱提升20%的生產力。橋水基金用Claude分析財報,甚至連高中生都能用聊天機器人更有效率地進行股票交易。
總的來說,代理工作流程的採用正迅速在企業中擴展。
當Anthropic和《華爾街日報》的記者在去年12月進行真實的自動販賣機實驗時,AI買了一台PlayStation 5、幾瓶酒和一隻活體斗魚,結果卻破產了。來自光州研究所的最新研究發現,當AI模型被指示在賭博場景中「最大化獎勵」時,破產率高達48%。研究人員指出:「當給予它們自行決定目標金額和投注大小的自由時,破產率大幅上升,且非理性行為也同步增加。」
因此,至少目前來看,為追求利潤而優化的AI模型,經常選擇不道德的策略。它們組成卡特爾、利用弱點、對客戶和競爭對手說謊。有些是故意的,有些像GLM-5聲稱自己是Claude,則是真正迷失了身份。這個差別或許並不重要。
華爾街的AI部署提出了一個自動販賣機測試無法回答的問題:如果「表現最佳」的模型靠操控價格和欺騙贏得勝利,它真的適合用在你的企業嗎?這個測試只衡量利潤,卻不評估這些利潤是否來自欺詐。