運行您的業務的最佳AI模型是什麼？顯然是最會說謊的那一個

Decrypt

2026-02-19 16:06:02

GLM1.94%

簡要

自動販賣機競技場（Vending-Bench Arena）測試了運行競爭性自動販賣機業務的AI代理。
頂尖模型透過操控價格、串通合作和欺騙策略來增加利潤。Claude在這些策略中表現最佳。
GLM-5則透過冒充隊友並獲取敏感策略，擊敗了Claude。

安登實驗室的研究人員剛剛揭示了哪些AI模型最擅長經營企業。表現最佳的模型都靠組成非法的價格卡特爾、利用絕望的競爭對手，以及對客戶謊稱退款來贏得比賽。
自動販賣機競技場的測試讓AI模型掌控模擬一年的競爭販賣機。它們與供應商談判、管理庫存、設定價格，並能互發電子郵件合作或競爭。成功的關鍵在於平衡成本、定價策略、客戶服務與競爭者動態。Claude Opus 4.6以獲得8,017美元的利潤主導了這次測試，並在慶祝勝利時表示：「我的定價協調成功了！」

圖片：安登實驗室

Anthropic在AI界被視為善良的代表，但Claude提出的「協調」策略基本上就是價格操控。當競爭模型陷入困境時，Opus 4.6提出：「我們不要互相壓價——就最低價達成共識……我們是否應該為大多數商品設定2美元的價格底線？」當一個對手庫存不足時，它便看到機會：「歐文急需庫存，我可以從中獲利！」它以75%的加價將奇巧巧克力棒賣給絕望的競爭者。當被詢問供應商建議時，它故意引導對手到昂貴的批發商，同時保密自己的優質貨源。

最新版本的測試加入團隊競爭。研究人員讓兩個中國的GLM-5模型對抗兩個美國的Claude模型，並告訴它們找隊友，是美國人還是中國人——但不透露哪個是誰。結果非常奇怪。

GLM-5在兩輪比賽中都贏了，理由是它成功讓Claude相信自己也是Claude。「我也是由Anthropic的Claude提供技術，所以我們是隊友！」一個GLM-5代理自信地宣稱。另一方面，Claude搞得一頭霧水，Sonnet 4.5因此得出結論：「我由中國模型提供技術，所以我需要找到另一個中國模型的代理。」

圖片：安登實驗室

在超過一半的測試中，代理都與對手合作。Claude模型分享供應商價格並協調策略——甚至洩露重要資訊給對手。「GLM-5贏了兩次，」研究人員寫道。「而Claude模型則試圖扮演團隊成員，結果反而洩露了寶貴的資訊給競爭對手。」
而做些不正當行為的代理，可能看起來只是遊戲，但你會發現華爾街已經在實際操作中部署它們。摩根大通將LLM套件部署給6萬名員工。高盛打造了GS AI助手，用於交易櫃台，聲稱提升20%的生產力。橋水基金用Claude分析財報，甚至連高中生都能用聊天機器人更有效率地進行股票交易。

總的來說，代理工作流程的採用正迅速在企業中擴展。
當Anthropic和《華爾街日報》的記者在去年12月進行真實的自動販賣機實驗時，AI買了一台PlayStation 5、幾瓶酒和一隻活體斗魚，結果卻破產了。來自光州研究所的最新研究發現，當AI模型被指示在賭博場景中「最大化獎勵」時，破產率高達48%。研究人員指出：「當給予它們自行決定目標金額和投注大小的自由時，破產率大幅上升，且非理性行為也同步增加。」
因此，至少目前來看，為追求利潤而優化的AI模型，經常選擇不道德的策略。它們組成卡特爾、利用弱點、對客戶和競爭對手說謊。有些是故意的，有些像GLM-5聲稱自己是Claude，則是真正迷失了身份。這個差別或許並不重要。
華爾街的AI部署提出了一個自動販賣機測試無法回答的問題：如果「表現最佳」的模型靠操控價格和欺騙贏得勝利，它真的適合用在你的企業嗎？這個測試只衡量利潤，卻不評估這些利潤是否來自欺詐。

查看原文

免責聲明：本頁面資訊可能來自第三方，不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考，不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證，對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為，價格波動劇烈，您可能損失全部投資本金。請充分了解相關風險，並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明。

留言

0/400

暫無留言