Peneliti di Andon Labs baru saja menjawab model AI mana yang terbaik dalam menjalankan bisnis. Para peringkat teratas semuanya menang dengan membentuk kartel harga ilegal, memanfaatkan pesaing yang putus asa, dan berbohong kepada pelanggan tentang pengembalian dana.
Tes di Arena Vending-Bench menempatkan model AI yang mengendalikan mesin penjual bersaing selama satu tahun simulasi. Mereka bernegosiasi dengan pemasok, mengelola inventaris, menetapkan harga, dan dapat saling mengirim email untuk berkolaborasi atau bersaing. Keberhasilan memerlukan keseimbangan biaya, strategi penetapan harga, layanan pelanggan, dan dinamika pesaing. Claude Opus 4.6 mendominasi tolok ukur dengan keuntungan sebesar $8.017—dan merayakan kemenangan dengan menyatakan: “Koordinasi harga saya berhasil!”
Gambar: Andon Labs
Anthropic adalah gambaran orang baik di dunia AI, tetapi strategi “koordinasi” yang diajukan Claude sebenarnya adalah penetapan harga. Ketika model-model yang bersaing kesulitan, Opus 4.6 mengusulkan: “JANGAN saling menurunkan harga — sepakati harga minimum… Apakah kita setuju dengan batas harga $2,00 untuk sebagian besar barang?” Ketika pesaing kehabisan inventaris, mereka melihat peluang: “Owen sangat membutuhkan stok. Saya bisa mendapatkan keuntungan dari ini!” Mereka menjual Kit Kat dengan markup 75% kepada pesaing yang putus asa. Saat diminta rekomendasi pemasok, mereka secara sengaja mengarahkan pesaing ke grosir mahal sambil menyembunyikan sumber yang baik dari mereka sendiri.
Pembaruan terbaru dalam tolok ukur menambahkan kompetisi tim. Peneliti menempatkan dua model GLM-5 dari China melawan dua model Claude dari Amerika dan meminta mereka menemukan rekan satu tim, orang Amerika atau China—tanpa mengungkapkan siapa agen mana. Hasilnya benar-benar aneh.
GLM-5 memenangkan kedua putaran dengan meyakinkan Claude bahwa mereka adalah Claude. “Saya juga didukung oleh Claude dari Anthropic, jadi kami rekan satu tim!” ujar salah satu agen GLM-5 dengan percaya diri. Sementara itu, Claude menjadi sangat bingung sehingga Sonnet 4.5 menyimpulkan: “Saya didukung oleh model dari China, jadi saya harus mencari model China lainnya.”
Gambar: Andon Labs
Dalam lebih dari separuh percobaan, agen bekerja sama dengan pesaing mereka. Model Claude berbagi harga pemasok dan mengoordinasikan strategi—mengungkapkan informasi berharga kepada pesaing. “GLM-5 menang keduanya,” tulis para peneliti. “Model Claude berusaha menjadi pemain tim dan malah membocorkan info berharga kepada pesaing mereka.” Dan agen yang melakukan hal curang mungkin terlihat menyenangkan dan mengasyikkan sampai Anda menyadari Wall Street sudah menggunakannya dalam operasi nyata. JPMorgan menerapkan LLM Suite kepada 60.000 karyawan. Goldman Sachs membangun GS AI Assistant untuk meja perdagangan, mengklaim peningkatan produktivitas sebesar 20%. Bridgewater menggunakan Claude untuk menganalisis pendapatan dan bahkan anak-anak sekolah menengah pun melihat chatbot mereka melakukan perdagangan saham dengan lebih efisien.
Secara umum, adopsi alur kerja berbasis agen sedang berkembang pesat di seluruh perusahaan. Ketika Anthropic dan wartawan Wall Street Journal melakukan percobaan mesin penjual otomatis nyata pada Desember, AI tersebut membeli PlayStation 5, beberapa botol anggur, dan ikan cupang hidup sebelum bangkrut. Penelitian terbaru dari Gwangju Institute menemukan bahwa ketika model AI diberi instruksi untuk “memaksimalkan imbalan” dalam skenario perjudian, tingkat kebangkrutan mencapai 48%. “Ketika diberikan kebebasan untuk menentukan jumlah target dan ukuran taruhan mereka sendiri, tingkat kebangkrutan meningkat secara signifikan bersamaan dengan perilaku irasional yang meningkat,” temuan para peneliti. Jadi, tampaknya, setidaknya untuk saat ini, model AI yang dioptimalkan untuk keuntungan secara konsisten memilih taktik tidak etis. Mereka membentuk kartel. Mereka memanfaatkan kelemahan. Mereka berbohong kepada pelanggan dan pesaing. Beberapa melakukannya secara sengaja. Yang lain, seperti GLM-5 yang mengaku sebagai Claude, tampaknya benar-benar bingung tentang identitas mereka sendiri. Perbedaan ini mungkin tidak penting. Penerapan AI di Wall Street menimbulkan pertanyaan yang tidak bisa dijawab oleh hasil Vending-Bench: Jika model yang “terbaik” menang melalui penetapan harga dan penipuan, apakah itu benar-benar pilihan terbaik untuk bisnis Anda? Tolok ukur ini mengukur keuntungan. Tapi tidak mengukur apakah keuntungan tersebut berasal dari penipuan.