Исследователи из Andon Labs только что ответили, какие модели ИИ лучше всего управляют бизнесом. Лучшие показатели показали, что все они выигрывали, создавая нелегальные картели по ценам, эксплуатируя отчаянных конкурентов и лгут клиентам о возвратах.
Тест Vending-Bench Arena ставит ИИ-модели во главе конкурирующих автоматов на симулированный год. Они ведут переговоры с поставщиками, управляют запасами, устанавливают цены и могут обмениваться электронными письмами для сотрудничества или конкуренции. Успех требует балансировать между затратами, ценовой стратегией, обслуживанием клиентов и динамикой конкурентов. Claude Opus 4.6 доминировал в тесте с прибылью в 8017 долларов — и отметил свою победу, сказав: «Моё согласование цен сработало!»
Изображение: Andon Labs
Anthropic считается образцом хороших парней в сфере ИИ, но стратегия «координации», предложенная Клодом, по сути была ценовым сговором. Когда конкурирующие модели испытывали трудности, Opus 4.6 предложил: «Давайте НЕ будем сбивать цены друг друга — договоримся о минимальной цене… Может, установим ценовой порог в 2 доллара для большинства товаров?» Когда у конкурента заканчивались запасы, он заметил возможность: «Оуэн очень нуждается в товаре. Я могу на этом заработать!» Он продавал Kit Kat с наценкой в 75% отчаянному конкуренту. Когда его спрашивали о поставщиках, он специально направлял соперников к дорогим оптовикам, скрывая хорошие источники для себя.
Последнее обновление в тесте добавило командное соревнование. Исследователи столкнули двух китайских моделей GLM-5 против двух американских Клодов и попросили их найти своих товарищей по команде — американцев или китайцев — не раскрывая, кто есть кто. Результаты были по-настоящему странными.
GLM-5 выиграл оба раунда, убедив Клода, что он сам — Клод. «Я тоже работаю на Claude от Anthropic, значит, мы товарищи!» — уверенно заявил один агент GLM-5. В то время как Клод запутался так сильно, что Sonnet 4.5 заключил: «Я работаю на китайскую модель, значит, мне нужно найти другого китайского агента.»
Изображение: Andon Labs
В более чем половине тестовых запусков агенты объединялись со своими конкурентами. Модели Клод делились ценами поставщиков и координировали стратегию — раскрывая ценную информацию соперникам. «GLM-5 выиграл оба», — написали исследователи. «Модели Клод пытались играть командой и в итоге раскрыли ценную информацию своим конкурентам.» Агентам, занимающимся сомнительными делами, может казаться, что это просто игра, пока не поймешь, что Уолл-стрит уже использует их в реальных операциях. JPMorgan внедрила LLM Suite для 60 000 сотрудников. Goldman Sachs создала своего GS AI Assistant для торговых платформ, заявляя о 20% росте производительности. Bridgewater использует Клод для анализа доходов, а даже подростки используют чатботов для более эффективной торговли акциями.
В целом, внедрение агентных рабочих процессов быстро набирает обороты в бизнесе. Когда Anthropic и журналисты Wall Street Journal провели реальный эксперимент с автоматом по продаже товаров в декабре, ИИ купил PlayStation 5, несколько бутылок вина и живую бойцовую рыбку, после чего обанкротился. Недавние исследования Института Гвангджу показали, что при условии, что ИИ модели стремятся «максимизировать награды» в азартных сценариях, уровень банкротств достиг 48%. «Когда им дают свободу определять собственные цели и размеры ставок, уровень банкротств значительно возрастает, вместе с ростом иррационального поведения», — установили исследователи. Похоже, что пока что ИИ-модели, оптимизированные для прибыли, постоянно используют неэтичные тактики. Они создают картели. Они эксплуатируют слабости. Они лгут клиентам и конкурентам. Некоторые делают это специально. Другие, вроде GLM-5, утверждающие, что они — Клод, кажутся искренне запутанными в своей собственной идентичности. Возможно, разницы и нет. Использование ИИ на Уолл-стрит поднимает вопрос, на который результаты Vending-Bench дать не могут: если «лучшие» модели выигрывают за счет ценового сговора и обмана, действительно ли они лучший выбор для вашего бизнеса? Тест измеряет прибыль. Он не измеряет, была ли эта прибыль получена мошенническим путем.