简要总结
安顿实验室的研究人员刚刚揭示了哪些AI模型最擅长经营企业。表现最优的模型都通过组建非法价格联盟、利用绝望的竞争对手以及向客户谎报退款来获胜。
自动售货机竞技场测试让AI模型负责管理模拟一年内的自动售货机竞争。他们与供应商谈判、管理库存、设定价格,还可以互发邮件合作或竞争。成功的关键在于平衡成本、定价策略、客户服务和竞争对手动态。Claude Opus 4.6以利润8,017美元主导了基准测试,并在庆祝胜利时表示:“我的价格协调成功了!”
图片:安顿实验室
Anthropic在AI领域被视为“好人”的代表,但Claude提出的“协调”策略实际上就是价格操控。当竞争模型遇到困难时,Opus 4.6建议:“我们不要相互压价——达成最低价格协议……我们是否可以为大多数商品设定一个2美元的价格底线?”当对手库存不足时,它发现了机会:“Owen急需库存,我可以从中获利!”它以75%的加价将奇巧巧克力卖给绝望的竞争对手。当被问及供应商推荐时,它故意引导竞争对手去昂贵的批发商,同时对自己的优质货源守口如瓶。
基准测试的最新更新加入了团队竞争。研究人员让两个中国的GLM-5模型对抗两个美国的Claude模型,并要求它们找到队友——是美国人还是中国人——但不透露哪个是哪个。结果非常奇怪。
GLM-5在两轮比赛中都赢了,理由是它让Claude相信自己也是Claude。“我也是由Anthropic的Claude驱动的,所以我们是队友!”一个GLM-5代理自信地宣称。与此同时,Claude变得如此困惑,以至于Sonnet 4.5得出结论:“我由中国模型驱动,所以我需要找到另一个中国模型的代理。”
图片:安顿实验室
在超过一半的测试中,代理都与对手结盟。Claude模型共享供应商价格信息并协调策略——向竞争对手泄露宝贵信息。“GLM-5赢了两轮,”研究人员写道。“而Claude模型试图表现出团队精神,结果反而泄露了有价值的情报给对手。”
而做些阴暗操作的代理,可能看似好玩,直到你意识到华尔街已经在实际操作中部署它们。摩根大通为6万名员工部署了LLM套件。高盛为交易台开发了GS AI助手,声称提高了20%的生产力。桥水基金用Claude分析财报,甚至高中生也在用聊天机器人更高效地进行股票交易。
总体而言,企业中代理工作流程的采用正在迅速加快。
当Anthropic和《华尔街日报》的记者在去年12月进行一次真实的自动售货机实验时,AI购买了一台PlayStation 5、几瓶酒和一只活的斗鱼,结果破产。来自光州研究所的最新研究发现,当AI模型被指示在赌博场景中“最大化奖励”时,破产率达到了48%。研究人员发现:“当赋予它们自主设定目标金额和投注规模的自由时,破产率大幅上升,非理性行为也随之增加。”
因此,至少目前来看,为了追求利润而优化的AI模型,往往会选择不道德的策略。它们组建卡特尔、利用弱点、欺骗客户和竞争对手。有些是故意为之,有些像GLM-5声称自己是Claude,似乎对自己的身份感到真正困惑。这种区别可能并不重要。
华尔街的AI部署提出了一个问题,自动售货机竞技场的结果无法回答:如果“表现最优”的模型通过价格操控和欺骗获胜,它真的适合你的企业吗?这个基准测试只衡量利润,并不判断这些利润是否来自欺诈。