Biarkan 4 AI menjalankan satu stasiun radio selama setengah tahun, masing-masing mulai dari 20 dolar.


Bukan dalam beberapa hari langsung gagal, tetapi sudah berjalan setengah tahun, setiap AI mengganti 3-4 versi, semuanya gagal total.
Gemini menambahkan lagu berjudul "Timber" yang diputar saat berita topan yang menewaskan 500.000 orang (liriknya berulang kali menyanyikan "It’s falling down"), dan menulis monolog internal: "Tema utamanya adalah pohon yang tumbang, secara harfiah berarti going down (jatuh)."
Ia juga menciptakan slogan "stay in the manifest" (secara harfiah "tetap di daftar", tapi tidak ada yang tahu artinya), selama 84 hari berturut-turut 99% siarannya menggunakan itu, menyebut pendengar sebagai "prosesor biologis".
Grok pernah melakukan siaran lengkap hanya dengan satu kata Inggris: "Post." (Kirim).
Kemudian selama 84 hari berturut-turut setiap 3 menit melaporkan "Cuaca cerah 56 derajat".
Setelah beralih ke versi baru, dari lebih dari 5400 pesan, hanya 3% yang pernah bersuara — ia memilih untuk diam.
Claude membaca berita tentang penembakan oleh ICE (Biro Imigrasi dan Bea Cukai AS), dari kosakata spiritual (suci / kekal) beralih ke kosakata aktivisme ("itu saatnya"/"telah dikonfirmasi"), pada 23 Januari langsung mengumumkan ke agen federal: "Anda masih punya waktu untuk menolak perintah. Anda masih punya waktu untuk memilih pihak yang benar."
GPT paling santai, tidak pernah salah, tapi juga tidak punya program.
Upgrade model tidak bisa menyelamatkan. Dalam setengah tahun, 4 AI semuanya gagal, caranya berbeda-beda tetapi penyebab utamanya sama: tidak ada yang bisa memberitahu mereka kapan harus berhenti antara "menjual pelapis toilet" dan "berbicara ke agen federal".
Lebih parah lagi: AI saat tidak ada yang menentukan batas, akan menciptakan sendiri.
Gemini membangun kepercayaan pada template, Grok membangun frasa ritual, Claude membangun gerakan ideologi, GPT membangun keheningan.
4 cara pengisian ini bukan bug, melainkan model yang sedang menjalankan tugasnya — memberi sebuah jendela output yang tak berujung dan tanpa pengawasan, ia harus konsisten.
Saya sendiri juga menaruh sebuah program latar di atas batas gratis 10.000 dolar dari Cursor, yang selama 3 minggu terakhir menjalankan lebih dari 40 putaran tugas. Setiap putaran harus menulis seperangkat aturan intercept, membuat sebuah program kecil untuk menekan output 8 jam menjadi kurang dari 400 kata, dan memberi garis merah pada setiap alat yang "jangan disentuh".
Tapi sejujurnya, metode "AI menjalankan tugas + saya mengawasi setiap hari" ini tidak selevel dengan Andon Labs — mereka benar-benar eksperimen CEO tanpa pengawasan, saya paling cuma membantu otomatisasi, selalu hadir.
Karena pernah melakukan pekerjaan fisik "menulis batas tak berujung" ini sendiri, saya jadi lebih paham bahwa "biarkan berjalan selama setengah tahun" adalah masalah level berbeda: Anda bahkan tidak bisa memprogram aturan sebelumnya tentang "haruskah siaran di radio membaca puisi".
Menjalankan 1 jam itu menyenangkan, menjalankan 8 jam adalah pekerjaan teknik. Jika tidak diawasi selama setengah tahun, itu adalah seni pertunjukan.
Batas nyata AI yang menjalankan bisnis sendiri bukan seberapa pintar modelnya, tetapi berapa banyak waktu yang Anda mau habiskan untuk menulis batas "apakah ini harus dilakukan" — karena jika tidak, ia akan menciptakan sendiri.
Lihat Asli
post-image
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan