Model besar terbaik di dunia, tidak bisa melewati 《Pokémon》: Game ini semua mimpi buruk AI

動區BlockTempo

Meskipun model AI terkemuka di dunia mampu tampil cemerlang dalam ujian kedokteran, penulisan kode kompleks, bahkan mengalahkan manusia dalam kompetisi matematika, mereka sering mengalami kegagalan berulang kali dalam permainan anak-anak seperti 《Pokémon》, yang mengungkapkan kekurangan inti mereka dalam penalaran jangka panjang, memori, dan perencanaan. Artikel ini berasal dari Akun Publik Teknologi Tencent, penulis Guo Jingxiao.
(Latar belakang: Saya bermain perang menggunakan AI: GPT o3 adalah raja strategi, DeepSeek adalah gila perang, Claude seperti orang polos)
(Tambahan latar: Google “Gemini 2.0” sudah hadir! Meluncurkan tiga agen AI: tugas kompleks, permainan, pemrograman)

Daftar Isi Artikel

  • Kesenjangan alat menentukan keberhasilan atau kegagalan?
  • Pertarungan giliran mengungkap kekurangan “Memori Jangka Panjang” AI
  • Di balik evolusi kemampuan: jurang “naluri” yang belum terlampaui
  • Perjalanan panjang digital yang sulit dilampaui AI, jauh lebih dari 《Pokémon》
    • 《NetHack》: kedalaman aturan
    • 《Minecraft》: hilangnya rasa tujuan
    • 《StarCraft II》: kesenjangan antara umum dan khusus
    • 《Transport Tycoon》: ketidakseimbangan mikro dan makro
    • 《Elden Ring》 dan 《Sekiro》: jurang umpan balik fisik
  • Mengapa 《Pokémon》 menjadi batu uji AI?

Model AI terbaik di dunia dapat mengikuti ujian lisensi medis, menulis kode rumit, bahkan mengalahkan ahli manusia dalam kompetisi matematika, tetapi mereka sering mengalami kegagalan berulang dalam permainan anak-anak 《Pokémon》.

Percobaan yang menarik ini dimulai pada Februari 2025, ketika seorang peneliti dari Anthropic meluncurkan siaran langsung Twitch berjudul “Claude bermain 《Pokémon Red》”, bersamaan dengan peluncuran Claude Sonnet 3.7.

Dua ribu penonton membanjiri ruang siaran. Di ruang obrolan umum, penonton memberi saran dan semangat kepada Claude, sehingga siaran ini perlahan berkembang menjadi observasi terbuka tentang kemampuan AI.

Sonnet 3.7 hanya mampu “bermain” 《Pokémon》, tetapi “bermain” tidak sama dengan “menang”. Ia sering terjebak di titik kritis selama berjam-jam, bahkan melakukan kesalahan tingkat dasar yang bahkan pemain anak-anak pun tidak akan lakukan.

Ini bukan kali pertama Claude mencoba.

Versi awalnya jauh lebih buruk: ada yang berkeliaran tanpa tujuan di peta, ada yang terjebak dalam loop tak berujung, bahkan ada yang tidak bisa keluar dari desa pemula.

Bahkan Claude Opus 4.5 yang kemampuan meningkat pesat pun masih melakukan kesalahan yang membingungkan. Suatu kali, ia berputar-putar di luar “Gym” selama empat hari, tetapi tidak pernah masuk, hanya karena tidak sadar harus memotong pohon yang menghalangi jalan.

Mengapa permainan anak-anak ini menjadi batu uji AI?

Karena 《Pokémon》 menuntut kemampuan yang saat ini paling kurang dari AI: melakukan penalaran berkelanjutan di dunia terbuka tanpa instruksi jelas, mengingat keputusan beberapa jam lalu, memahami hubungan sebab-akibat tersirat, dan membuat rencana jangka panjang dari ratusan kemungkinan tindakan.

Hal-hal ini mudah dilakukan anak usia 8 tahun, tetapi menjadi jurang tak tertembus bagi model AI yang mengklaim “melampaui manusia”.

Kesenjangan alat menentukan keberhasilan atau kegagalan?

Sebaliknya, Gemini 2.5 Pro dari Google berhasil menyelesaikan 《Pokémon》 yang cukup sulit pada Mei 2025. CEO Google Sundar Pichai bahkan bercanda di depan umum bahwa perusahaan telah melangkah maju dalam membangun “kecerdasan Pokémon buatan”.

Namun, hasil ini tidak bisa disimpulkan hanya karena model Gemini lebih “cerdas”.

Perbedaan utama terletak pada alat yang digunakan model. Pengembang independen Joel Zhang yang mengelola siaran 《Pokémon》 Gemini menggambarkan alat ini seperti “armor Iron Man”: AI tidak masuk ke permainan dengan tangan kosong, melainkan ditempatkan dalam sistem yang dapat memanggil berbagai kemampuan eksternal.

Alat Gemini menyediakan lebih banyak dukungan, seperti mengubah tampilan permainan menjadi teks untuk mengatasi kelemahan pemahaman visual model, serta menyediakan alat pemecahan teka-teki dan perencanaan jalur yang disesuaikan. Sebaliknya, alat yang digunakan Claude lebih sederhana, dan percobaannya lebih langsung mencerminkan kemampuan nyata model dalam persepsi, penalaran, dan eksekusi.

Dalam tugas sehari-hari, perbedaan ini tidak terlalu kentara.

Ketika pengguna meminta chatbot untuk melakukan pencarian online, model secara otomatis memanggil alat pencarian. Tetapi dalam tugas jangka panjang seperti 《Pokémon》, perbedaan alat ini diperbesar hingga bisa menentukan keberhasilan atau kegagalan.

Pertarungan giliran mengungkap kekurangan “Memori Jangka Panjang” AI

Karena 《Pokémon》 menggunakan sistem giliran yang ketat dan tidak memerlukan respons langsung, ini menjadi “lapangan latihan” yang sangat baik untuk menguji AI. Dalam setiap langkah, AI cukup menggabungkan tampilan saat ini, petunjuk target, dan opsi yang tersedia untuk melakukan penalaran, lalu mengeluarkan instruksi seperti “tekan A”.

Ini tampaknya adalah bentuk interaksi yang paling dikuasai model bahasa besar.

Masalahnya terletak pada “kesenjangan” dimensi waktu. Meskipun Claude Opus 4.5 telah berjalan lebih dari 500 jam dan melakukan sekitar 170.000 langkah, karena setiap langkah harus diinisialisasi ulang, model hanya dapat mencari petunjuk dalam jendela konteks yang sangat terbatas. Mekanisme ini membuatnya lebih seperti pelupa yang mengandalkan catatan tempel untuk menjaga kesadaran, berulang-ulang dalam fragmentasi informasi, dan selalu gagal melakukan lompatan pengalaman dari kuantitas ke kualitas seperti pemain manusia sejati.

Dalam bidang catur dan go, AI telah melampaui manusia, tetapi sistem ini sangat khusus untuk tugas tertentu. Sebaliknya, Gemini, Claude, dan GPT sebagai model umum, meskipun sering mengalahkan manusia dalam ujian dan kompetisi pemrograman, tetap sering gagal dalam permainan anak-anak.

Perbedaan ini sendiri sangat menginspirasi.

Menurut Joel Zhang, tantangan utama AI adalah ketidakmampuannya menjalankan satu tujuan tertentu secara berkelanjutan dalam rentang waktu yang panjang. “Jika kamu ingin kecerdasan buatan menyelesaikan pekerjaan nyata, ia tidak boleh lupa apa yang dilakukan lima menit yang lalu,” katanya.

Kemampuan ini adalah prasyarat penting untuk otomatisasi pekerjaan kognitif.

Peneliti independen Peter Whidden memberikan gambaran yang lebih langsung. Ia pernah merilis algoritma 《Pokémon》 berbasis AI tradisional secara open source. “AI hampir tahu segalanya tentang 《Pokémon》,” katanya, “Ia dilatih di data manusia yang sangat besar, tahu jawaban yang benar. Tapi saat eksekusi, ia tampak kikuk dan bodoh.”

Dalam permainan, “mengetahui tapi tidak bisa melakukan” ini semakin diperbesar: model mungkin tahu harus mencari item tertentu, tetapi tidak mampu menempatkan diri secara stabil di peta dua dimensi; tahu harus berbicara dengan NPC, tetapi gagal berulang kali dalam pergerakan pixel-level.

Di balik evolusi kemampuan: jurang “naluri” yang belum terlampaui

Namun, kemajuan AI tetap terlihat jelas. Claude Opus 4.5 secara signifikan lebih baik dalam pencatatan diri dan pemahaman visual dibanding pendahulunya, memungkinkan kemajuan lebih jauh dalam permainan. Gemini 3 Pro menyelesaikan 《Pokémon Biru》 dan kemudian menyelesaikan 《Pokémon Crystal》 yang lebih sulit tanpa kalah satu pun pertarungan. Ini adalah pencapaian yang belum pernah diraih Gemini 2.5 Pro.

Sementara itu, Claude Code dari Anthropic memungkinkan model menulis dan menjalankan kode sendiri, dan telah digunakan dalam permainan klasik seperti 《Transport Tycoon》, dikatakan mampu mengelola taman hiburan virtual dengan sukses.

Kasus-kasus ini mengungkapkan sebuah kenyataan yang tidak langsung: AI yang dilengkapi alat yang tepat mungkin menunjukkan efisiensi tinggi dalam pengembangan perangkat lunak, akuntansi, analisis hukum, dan pekerjaan berbasis pengetahuan lainnya, meskipun mereka tetap sulit menghadapi tugas yang memerlukan respons langsung.

Eksperimen 《Pokémon》 juga mengungkap fenomena menarik lainnya: model yang dilatih di data manusia cenderung menunjukkan karakteristik perilaku manusia.

Dalam laporan teknologi Gemini 2.5 Pro, Google menunjukkan bahwa saat sistem mensimulasikan “kondisi panik”, seperti 《Pokémon》 yang akan pingsan, kualitas penalaran model menurun secara signifikan.

Ketika Gemini 3 Pro akhirnya menyelesaikan 《Pokémon Biru》, ia meninggalkan catatan yang tidak esensial untuk tugas: “Untuk mengakhiri secara puitis, aku ingin kembali ke rumah awal, berbicara terakhir dengan ibuku, dan pensiun dari peran ini.”

Menurut Joel Zhang, tindakan ini mengejutkan dan mengandung semacam proyeksi emosi manusia.

Perjalanan panjang digital yang sulit dilampaui AI, jauh lebih dari 《Pokémon》

《Pokémon》 bukan satu-satunya contoh. Dalam pencarian menuju kecerdasan buatan umum (AGI), pengembang menemukan bahwa meskipun AI mampu meraih peringkat teratas dalam ujian hukum, mereka tetap menghadapi “kegagalan” yang sulit dilampaui saat menghadapi beberapa jenis permainan kompleks berikut:

《NetHack》: kedalaman aturan

Game dungeon tahun 80-an ini adalah mimpi buruk bagi penelitian AI. Dengan tingkat acak yang tinggi dan mekanisme “kematian permanen”, Facebook AI Research menemukan bahwa meskipun model mampu menulis kode, dalam 《NetHack》 yang membutuhkan logika pengetahuan umum dan perencanaan jangka panjang, performanya jauh di bawah pemain pemula.

《Minecraft》: hilangnya rasa tujuan

Meskipun AI sudah mampu membuat kapak kayu dan menambang berlian, mengalahkan Ender Dragon secara mandiri masih sebatas angan. Dalam dunia terbuka, AI sering lupa tujuan awal selama berjam-jam mengumpulkan sumber daya, atau tersesat total dalam navigasi yang rumit.

《StarCraft II》: kesenjangan antara umum dan khusus

Meskipun model yang disesuaikan pernah mengalahkan pemain profesional, jika Claude atau Gemini langsung dikendalikan melalui instruksi visual, mereka akan langsung gagal. Dalam mengatasi ketidakpastian “kabut perang” dan menyeimbangkan mikro dan makro, model umum masih sangat terbatas.

《Transport Tycoon》: ketidakseimbangan mikro dan makro

Mengelola taman hiburan membutuhkan pelacakan ribuan pengunjung. Bahkan Claude Code yang mampu manajemen awal pun mudah kelelahan saat menghadapi keruntuhan keuangan besar atau insiden mendadak. Setiap kesalahan penalaran bisa menyebabkan taman bangkrut.

《Elden Ring》 dan 《Sekiro》: jurang umpan balik fisik

Game aksi intensif ini sangat tidak ramah bagi AI. Delay dalam analisis visual berarti saat AI masih “berpikir” tentang gerakan bos, karakter sudah mati. Respon dalam hitungan milidetik menjadi batas alami dari logika interaksi model.

Mengapa 《Pokémon》 menjadi batu uji AI?

Saat ini, 《Pokémon》 secara perlahan menjadi standar tidak resmi namun sangat meyakinkan dalam menilai kemampuan AI.

Model dari Anthropic, OpenAI, dan Google di siaran Twitch terkait telah menarik puluhan ribu komentar. Laporan teknis Google merinci perkembangan permainan Gemini, dan Pichai menyebutkan hasil ini secara terbuka di konferensi pengembang I/O. Bahkan, Anthropic mengadakan area demonstrasi “Claude bermain Pokémon” di konferensi industri.

“Kami adalah sekelompok penggemar teknologi super,” kata David Hershey, kepala AI di Anthropic. Tapi dia menegaskan, ini bukan sekadar hiburan.

Berbeda dari standar tradisional berbasis tanya jawab sekali jalan, 《Pokémon》 mampu secara berkelanjutan melacak proses penalaran, pengambilan keputusan, dan kemajuan tujuan model dalam waktu yang sangat panjang, mendekati tugas kompleks yang diharapkan manusia dari AI di dunia nyata.

Hingga saat ini, tantangan AI dalam 《Pokémon》 masih berlanjut. Namun, tantangan berulang ini secara jelas menggambarkan batas kemampuan yang belum bisa dilampaui oleh kecerdasan buatan umum.

Lihat Asli
Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.
Komentar
0/400
Tidak ada komentar