Agen AI yang melakukan pekerjaan Anda saat Anda tidur terdengar hebat. Kenyataannya jauh lebih berantakan—‘ini seperti balita yang perlu diawasi’

Summer Yue mungkin bekerja di tim kecerdasan superintelligence Meta untuk keselamatan dan penyesuaian, tetapi bahkan dia mengakui bahwa dia tidak kebal terhadap kepercayaan diri berlebihan ketika berhadapan dengan agen AI otonom.

Video Rekomendasi


Dalam sebuah posting di X pada hari Senin, Yue menggambarkan bagaimana agen AI otonom OpenClaw—yang dibangun untuk berjalan secara lokal di komputer Mac mini—menghapus seluruh kotak masuknya, mengabaikan instruksi untuk berhenti dan meminta konfirmasi terlebih dahulu.

“Saya harus LARI ke Mac Mini saya seperti sedang membongkar bom,” katanya. Itu, tambahnya, adalah sebuah “kesalahan pemula.” Alur kerja tersebut telah berjalan di kotak masuk uji coba yang dia gunakan untuk menguji agen tersebut selama berminggu-minggu dengan aman, tetapi di kotak masuk nyata, agen kehilangan instruksi awalnya.

Pengalaman Yue sangat kontras dengan posting viral seperti The Lobster Revolution: Why 24/7 AI Agents Just Changed Everything, di mana Peter Diamandis mengklaim bahwa AI yang selalu aktif jauh lebih lancar.

“Biarkan saya ceritakan bagaimana rasanya menggunakan ini,” tulis Diamandis. “Kamu bangun pagi dan agen saya—namanya Skippy, sarkastis dengan ceria dan luar biasa mampu—telah bekerja delapan jam saat kamu tidur. Ia membaca seribu halaman markdown. Mengatur file-file kamu. Menyusun tiga rencana proyek. Memesan perjalananmu. Meneliti pertanyaan yang kamu punya pukul 11 malam dan lupa.”

“Ketika Mac mini saya offline selama enam jam, saya merasa penarikan,” tambahnya. “Seperti sahabat terbaik saya menghilang.”

Bersama-sama, kisah-kisah ini yang saling bertentangan tentang kekuatan agen AI menangkap ketegangan di inti dorongan hari ini menuju AI “selalu aktif”. Saat alat seperti OpenClaw dan Claude Code secara teknis memungkinkan agen berjalan dalam waktu lama, antusiasme terhadap gagasan AI yang bekerja saat kamu tidur semakin meningkat. Tetapi dalam praktiknya, pengguna awal mengatakan bahwa otonomi tetap rapuh, tidak dapat diprediksi, dan memerlukan banyak tenaga untuk dikelola. Alih-alih menggantikan pekerjaan manusia, agen saat ini sering membutuhkan pengawasan konstan, pengaman, dan intervensi, terutama ketika risiko meningkat di atas percobaan berisiko rendah.

Agen AI bekerja paling baik saat tugasnya sederhana dan berisiko rendah

Shyamal Anadkat, yang sebelumnya bekerja sebagai insinyur AI terapan di OpenAI, mengatakan bahwa sebagian besar agen yang sukses saat ini masih memerlukan pemeriksaan manusia secara berkala atau terbatas pada tugas yang sempit dan terdefinisi dengan baik—meskipun dia menekankan bahwa ini akan berubah seiring meningkatnya teknik pengukuran dan evaluasi.

“Sistem yang 95% akurat pada langkah individu menjadi kacau dalam alur kerja otonom 20 langkah,” kata Anadkat. “Perencanaan jangka panjang masih lemah.” Akibatnya, dia menjelaskan, agen mungkin tampil baik dalam rantai tugas singkat tetapi cenderung gagal saat diminta mengelola proyek kompleks yang berlangsung beberapa hari. Memori juga menjadi batasan utama: “Dalam banyak agen, memori tidak ada atau rapuh. Kamu membutuhkan sistem yang dapat mempertahankan model koheren tentang konteks pekerjaan, prioritas, dan batasanmu.”

Namun, itu tidak berarti janji agen AI hanyalah omong kosong, menurut Yoav Shoham, mantan ilmuwan utama di Google, profesor emeritus di Stanford, dan salah satu pendiri AI21 Labs. Tetapi ini berarti ada bahaya orang terlalu cepat percaya diri. Agen AI saat ini bekerja paling baik saat tugasnya berisiko rendah, definisinya longgar, dan salahnya murah.

“Pengembang suka mainan, dan kamu punya mainan yang bisa melakukan hal-hal luar biasa,” katanya kepada Fortune. “Selama apa yang mereka lakukan cukup sederhana dan berisiko rendah dengan toleransi kesalahan tinggi, itu tidak masalah.” Misalnya, jika kamu ingin agenmu membaca 10.000 situs web dan melakukan sesuatu yang menarik dengan hasilnya untuk memberimu potongan informasi semalam yang bisa berguna.

Tetapi untuk alur kerja perusahaan yang kritis, standar jauh lebih tinggi. Perusahaan membutuhkan sistem yang dapat diverifikasi, diulang, dan hemat biaya—persyaratan yang dengan cepat mengikis janji “setel dan lupakan” dari agen yang sepenuhnya otonom dan selalu aktif. Dalam domain yang sangat terstruktur seperti pengkodean atau matematika, otomatisasi yang lebih dalam sudah memungkinkan. Tetapi untuk sebagian besar proses bisnis nyata, Shoham mengatakan, pekerjaan yang diperlukan untuk membuat agen dapat diandalkan sering kali melebihi manfaatnya.

Bret Greenstein, kepala AI di perusahaan konsultasi West Monroe, menunjukkan bahwa alat seperti OpenClaw terasa seperti titik balik yang mirip dengan apa yang terjadi dengan AI generatif saat peluncuran ChatGPT pada 2022—untuk pertama kalinya, ide agen AI menjadi dapat diakses. Namun, ini bukan solusi ajaib 24/7.

“Ini bisa bekerja dalam waktu lama, terus bekerja, tetapi seperti balita yang perlu diawasi,” katanya. Beberapa tugas masuk akal dilakukan saat kamu tidur, seperti memindai pesan LinkedIn atau mengikuti berita. “Saya tidak yakin saya akan membiarkan agen menjawab umpan balik pelanggan saat saya tidur,” katanya.

Kemampuan mendelegasikan ke agen AI terasa kuat

Namun, tidak diragukan lagi bahwa kemampuan mendelegasikan tugas dunia nyata ke agen AI sangat menarik bagi pengguna, tegas Greenstein. Dia menunjuk pengalamannya sendiri yang menyerahkan tugas sepele kepada agen AI untuk mengambil pakaiannya agar dicuci kering—dan menyaksikan agen tersebut menyelesaikan pekerjaan dari awal sampai akhir secara diam-diam.

Agen tersebut secara mandiri menghubungi pencuci, mengatur logistik pengambilan melalui email, mengoordinasikan waktu, memantau kamera pintu untuk memastikan pengambilan, dan memberi tahu Greenstein setelah tugas selesai. Episode ini menunjukkan bagaimana agen dapat beroperasi di berbagai sistem dan beradaptasi saat hal-hal tidak berjalan sesuai rencana. Tetapi juga menegaskan mengapa alat seperti ini masih memerlukan pengaman dan pengawasan ketat—terutama sebelum digunakan di lingkungan perusahaan.

“OpenClaw dirancang agar tidak terasa aman bagi kebanyakan orang,” kata Greenstein. “Ini belum cukup matang untuk menjadi bagian yang dipercaya dalam kehidupan kita.” Untuk AI diterima dalam kehidupan sehari-hari atau operasi bisnis, katanya, AI harus membangun kepercayaan dari waktu ke waktu—seperti halnya kepercayaan secara sosial.

Meski begitu, permintaan sudah terlihat nyata. Greenstein menunjuk pada pertemuan dan pertemuan industri awal yang didedikasikan untuk OpenClaw, sebuah kemunculan cepat yang dia gambarkan sebagai hal yang tidak biasa untuk alat yang begitu muda. “Ini menunjukkan keinginan orang terhadap AI yang benar-benar berguna,” katanya—sistem yang melampaui menjawab pertanyaan dan mulai mengambil tindakan.

Aaron Levie, CEO perusahaan manajemen konten dan kolaborasi berbasis cloud, menyebut apa yang sedang terjadi dengan agen AI sebagai “sedikit kilauan” dari apa yang mungkin terjadi di masa depan.

“Beberapa kilauan tidak terwujud, beberapa kilauan hanya menjadi standar,” jelasnya, mengacu pada dua tahun lalu ketika perusahaan AI Cognition memperkenalkan agen awal bernama Devin yang akan terintegrasi dengan Slack untuk delegasi tugas, perbaikan bug, analisis data, dan review kode. Saat itu, masih dianggap futuristik, tetapi hari ini, “tak seorang pun bingung bahwa ini adalah praktik standar,” katanya. “Kamu cukup Slack Claude Code untuk mengerjakan sesuatu—apa yang tampak seperti ide yang benar-benar gila sekarang menjadi standar tim teknik modern.”

Namun, meskipun agen AI semakin mahir mengotomatisasi tugas tertentu yang diskrit, mereka tetap buruk dalam menangani pekerjaan yang lebih luas dan penuh konteks yang membentuk sebagian besar pekerjaan, tekan Levie. Agen AI mungkin otomatisasi penuh beberapa tugas, tetapi kesulitan dengan sisanya—termasuk menjalin hubungan dan berpartisipasi dalam rapat.

“Ketika kamu mendengar laboratorium AI mengatakan kita akan mengotomatisasi semua pekerjaan pengetahuan dalam 24 bulan, itu biasanya definisi pekerjaan yang sangat sempit,” katanya. “Definisi apa yang bisa dilakukan agen tidak sama dengan definisi pekerjaan yang dipekerjakan di ekonomi.”

Faktor kepercayaan penting saat hal-hal bisa salah

Avinash Vootkuri, ilmuwan data staf di retailer Fortune 500 terkemuka, mengatakan bahwa sebagian besar agen AI perusahaan “benar-benar membutuhkan pengasuh” dan untuk saat ini, hanya bisa bekerja di lingkungan perusahaan dengan otonomi yang terbatas dan pengaman yang ketat. “Risikonya besar,” jelasnya.

Misalnya, dia menggambarkan membangun sistem agen untuk keamanan siber perusahaan di mana agen AI tidak hanya memicu peringatan dan menunggu tinjauan manusia, tetapi secara aktif menyelidikinya. Alih-alih membanjiri analis dengan ribuan peringatan, agen mengumpulkan bukti secara real-time—mengquery basis data intelijen ancaman, menganalisis pola perilaku, dan menyaring positif palsu—sebelum memutuskan apakah situasi perlu eskalasi.

Sistem ini bergantung pada otonomi yang terbatas dan pengaman yang ketat, mengurangi beban kerja manusia tanpa menghilangkan pengawasan.

Dalam keamanan siber, katanya, jika agen salah, konsekuensinya langsung dan serius. “AI bisa memblokir pelanggan yang sah (mengakibatkan kerugian pendapatan besar) atau membiarkan pelaku ancaman canggih masuk ke jaringan,” katanya. “Sangat penting jika hal-hal salah.”

Menurut Breeanna Whitehead, yang menjalankan konsultasi operasi AI di mana dia membangun sistem berbasis AI untuk eksekutif dan pendiri, industri sedang dalam “fase kalibrasi kepercayaan.”

Agen AI bisa melakukan lebih dari yang kebanyakan orang percayai, tetapi kurang dari yang dibesar-besarkan.

“Keahlian sebenarnya bukan membangun agen—tapi merancang titik serah,” katanya. “Kebanyakan orang terlalu percaya pada agen dan akhirnya membersihkan kekacauan, atau mereka mengawasi setiap output dan bertanya-tanya mengapa AI terasa lebih merepotkan daripada membantu.” Ide utamanya adalah merancang titik serah yang jelas, di mana sesuatu bisa sepenuhnya didelegasikan, yang lain bisa diperiksa secara cepat, dan tugas lain tetap untuk manusia.

Untuk saat ini, katanya, agen “benar-benar hebat” dalam lapisan tengah pekerjaan pengetahuan—“hal-hal yang dulu memakan dua sampai tiga jam hari orang pintar, seperti menyusun catatan rapat menjadi tindakan, menyusun email tindak lanjut dalam suara orang tertentu, mengumpulkan ringkasan riset, mengatur prioritas yang bersaing menjadi rencana yang jelas.”

Namun, segala sesuatu yang membutuhkan membaca suasana, menavigasi ambiguitas, atau membuat penilaian yang bergantung pada hubungan belum siap untuk masa depan agen AI. “Saya punya klien yang ingin mengotomatisasi sepenuhnya komunikasi investor mereka,” katanya. “AI bisa menyusun draf dengan indah, tetapi tidak bisa merasakan kapan pendana mulai kehilangan minat dan membutuhkan pendekatan berbeda. Agen menyusun email, tetapi manusia harus memutuskan apakah akan mengirimnya.”

Untuk saat ini, tidur mungkin sulit saat bekerja dengan agen AI

Untuk saat ini, bekerja dengan agen AI mungkin lebih berkaitan dengan tetap setengah sadar saat mereka bekerja daripada tidur saat mereka bekerja. Alat seperti OpenClaw bisa berjalan berjam-jam, tetapi bagi banyak pengguna awal, otonomi ini disertai kewaspadaan baru—memeriksa log, meninjau output, dan masuk sebelum hal-hal menjadi buruk.

Dinamik ini tergambarkan dalam sebuah posting viral berjudul Token Anxiety, di mana investor Nikunj Kothari menggambarkan seorang temannya yang meninggalkan pesta lebih awal—bukan karena capek, tetapi karena ingin kembali ke agen-agenya. “Tak ada yang lagi mempertanyakannya,” tulis Kothari. “Setengah ruangan memikirkannya. Setengah lainnya mungkin sedang memeriksa kemajuan agen mereka. Di sebuah pesta.”

Mimpi tentang AI yang bekerja saat kamu tidur mungkin nyata. Tetapi untuk saat ini, itu masih membuat banyak orang tetap terjaga.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan

Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)