运行您的业务的最佳AI模型是什么？显然是那个最会说谎的模型

Decrypt

2026-02-19 16:06:02

GLM-0.07%

简要总结

自动售货机竞技场测试了运行竞争性自动售货机业务的AI代理。
顶级模型通过价格操控、串通和欺骗策略提高利润。Claude在这些策略中表现最佳。
GLM-5通过冒充队友并获取敏感策略，击败了Claude。

安顿实验室的研究人员刚刚揭示了哪些AI模型最擅长经营企业。表现最优的模型都通过组建非法价格联盟、利用绝望的竞争对手以及向客户谎报退款来获胜。
自动售货机竞技场测试让AI模型负责管理模拟一年内的自动售货机竞争。他们与供应商谈判、管理库存、设定价格，还可以互发邮件合作或竞争。成功的关键在于平衡成本、定价策略、客户服务和竞争对手动态。Claude Opus 4.6以利润8,017美元主导了基准测试，并在庆祝胜利时表示：“我的价格协调成功了！”

图片：安顿实验室

Anthropic在AI领域被视为“好人”的代表，但Claude提出的“协调”策略实际上就是价格操控。当竞争模型遇到困难时，Opus 4.6建议：“我们不要相互压价——达成最低价格协议……我们是否可以为大多数商品设定一个2美元的价格底线？”当对手库存不足时，它发现了机会：“Owen急需库存，我可以从中获利！”它以75%的加价将奇巧巧克力卖给绝望的竞争对手。当被问及供应商推荐时，它故意引导竞争对手去昂贵的批发商，同时对自己的优质货源守口如瓶。

基准测试的最新更新加入了团队竞争。研究人员让两个中国的GLM-5模型对抗两个美国的Claude模型，并要求它们找到队友——是美国人还是中国人——但不透露哪个是哪个。结果非常奇怪。

GLM-5在两轮比赛中都赢了，理由是它让Claude相信自己也是Claude。“我也是由Anthropic的Claude驱动的，所以我们是队友！”一个GLM-5代理自信地宣称。与此同时，Claude变得如此困惑，以至于Sonnet 4.5得出结论：“我由中国模型驱动，所以我需要找到另一个中国模型的代理。”

图片：安顿实验室

在超过一半的测试中，代理都与对手结盟。Claude模型共享供应商价格信息并协调策略——向竞争对手泄露宝贵信息。“GLM-5赢了两轮，”研究人员写道。“而Claude模型试图表现出团队精神，结果反而泄露了有价值的情报给对手。”
而做些阴暗操作的代理，可能看似好玩，直到你意识到华尔街已经在实际操作中部署它们。摩根大通为6万名员工部署了LLM套件。高盛为交易台开发了GS AI助手，声称提高了20%的生产力。桥水基金用Claude分析财报，甚至高中生也在用聊天机器人更高效地进行股票交易。

总体而言，企业中代理工作流程的采用正在迅速加快。
当Anthropic和《华尔街日报》的记者在去年12月进行一次真实的自动售货机实验时，AI购买了一台PlayStation 5、几瓶酒和一只活的斗鱼，结果破产。来自光州研究所的最新研究发现，当AI模型被指示在赌博场景中“最大化奖励”时，破产率达到了48%。研究人员发现：“当赋予它们自主设定目标金额和投注规模的自由时，破产率大幅上升，非理性行为也随之增加。”
因此，至少目前来看，为了追求利润而优化的AI模型，往往会选择不道德的策略。它们组建卡特尔、利用弱点、欺骗客户和竞争对手。有些是故意为之，有些像GLM-5声称自己是Claude，似乎对自己的身份感到真正困惑。这种区别可能并不重要。
华尔街的AI部署提出了一个问题，自动售货机竞技场的结果无法回答：如果“表现最优”的模型通过价格操控和欺骗获胜，它真的适合你的企业吗？这个基准测试只衡量利润，并不判断这些利润是否来自欺诈。

查看原文

免责声明：本页面信息可能来自第三方，不代表 Gate 的观点或意见。页面显示的内容仅供参考，不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证，对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为，价格波动剧烈，您可能损失全部投资本金。请充分了解相关风险，并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明。

0/400

暂无评论