Meskipun model AI terkemuka di dunia mampu tampil cemerlang dalam ujian kedokteran, penulisan kode kompleks, bahkan mengalahkan manusia dalam kompetisi matematika, mereka sering mengalami kegagalan berulang kali dalam permainan anak-anak seperti 《Pokémon》, yang mengungkapkan kekurangan inti mereka dalam penalaran jangka panjang, memori, dan perencanaan. Artikel ini berasal dari Akun Publik Teknologi Tencent, penulis Guo Jingxiao.
(Latar belakang: Saya bermain perang menggunakan AI: GPT o3 adalah raja strategi, DeepSeek adalah gila perang, Claude seperti orang polos)
(Tambahan latar: Google “Gemini 2.0” sudah hadir! Meluncurkan tiga agen AI: tugas kompleks, permainan, pemrograman)
Daftar Isi Artikel
Model AI terbaik di dunia dapat mengikuti ujian lisensi medis, menulis kode rumit, bahkan mengalahkan ahli manusia dalam kompetisi matematika, tetapi mereka sering mengalami kegagalan berulang dalam permainan anak-anak 《Pokémon》.
Percobaan yang menarik ini dimulai pada Februari 2025, ketika seorang peneliti dari Anthropic meluncurkan siaran langsung Twitch berjudul “Claude bermain 《Pokémon Red》”, bersamaan dengan peluncuran Claude Sonnet 3.7.
Dua ribu penonton membanjiri ruang siaran. Di ruang obrolan umum, penonton memberi saran dan semangat kepada Claude, sehingga siaran ini perlahan berkembang menjadi observasi terbuka tentang kemampuan AI.
Sonnet 3.7 hanya mampu “bermain” 《Pokémon》, tetapi “bermain” tidak sama dengan “menang”. Ia sering terjebak di titik kritis selama berjam-jam, bahkan melakukan kesalahan tingkat dasar yang bahkan pemain anak-anak pun tidak akan lakukan.
Ini bukan kali pertama Claude mencoba.
Versi awalnya jauh lebih buruk: ada yang berkeliaran tanpa tujuan di peta, ada yang terjebak dalam loop tak berujung, bahkan ada yang tidak bisa keluar dari desa pemula.
Bahkan Claude Opus 4.5 yang kemampuan meningkat pesat pun masih melakukan kesalahan yang membingungkan. Suatu kali, ia berputar-putar di luar “Gym” selama empat hari, tetapi tidak pernah masuk, hanya karena tidak sadar harus memotong pohon yang menghalangi jalan.
Mengapa permainan anak-anak ini menjadi batu uji AI?
Karena 《Pokémon》 menuntut kemampuan yang saat ini paling kurang dari AI: melakukan penalaran berkelanjutan di dunia terbuka tanpa instruksi jelas, mengingat keputusan beberapa jam lalu, memahami hubungan sebab-akibat tersirat, dan membuat rencana jangka panjang dari ratusan kemungkinan tindakan.
Hal-hal ini mudah dilakukan anak usia 8 tahun, tetapi menjadi jurang tak tertembus bagi model AI yang mengklaim “melampaui manusia”.
Sebaliknya, Gemini 2.5 Pro dari Google berhasil menyelesaikan 《Pokémon》 yang cukup sulit pada Mei 2025. CEO Google Sundar Pichai bahkan bercanda di depan umum bahwa perusahaan telah melangkah maju dalam membangun “kecerdasan Pokémon buatan”.
Namun, hasil ini tidak bisa disimpulkan hanya karena model Gemini lebih “cerdas”.
Perbedaan utama terletak pada alat yang digunakan model. Pengembang independen Joel Zhang yang mengelola siaran 《Pokémon》 Gemini menggambarkan alat ini seperti “armor Iron Man”: AI tidak masuk ke permainan dengan tangan kosong, melainkan ditempatkan dalam sistem yang dapat memanggil berbagai kemampuan eksternal.
Alat Gemini menyediakan lebih banyak dukungan, seperti mengubah tampilan permainan menjadi teks untuk mengatasi kelemahan pemahaman visual model, serta menyediakan alat pemecahan teka-teki dan perencanaan jalur yang disesuaikan. Sebaliknya, alat yang digunakan Claude lebih sederhana, dan percobaannya lebih langsung mencerminkan kemampuan nyata model dalam persepsi, penalaran, dan eksekusi.
Dalam tugas sehari-hari, perbedaan ini tidak terlalu kentara.
Ketika pengguna meminta chatbot untuk melakukan pencarian online, model secara otomatis memanggil alat pencarian. Tetapi dalam tugas jangka panjang seperti 《Pokémon》, perbedaan alat ini diperbesar hingga bisa menentukan keberhasilan atau kegagalan.
Karena 《Pokémon》 menggunakan sistem giliran yang ketat dan tidak memerlukan respons langsung, ini menjadi “lapangan latihan” yang sangat baik untuk menguji AI. Dalam setiap langkah, AI cukup menggabungkan tampilan saat ini, petunjuk target, dan opsi yang tersedia untuk melakukan penalaran, lalu mengeluarkan instruksi seperti “tekan A”.
Ini tampaknya adalah bentuk interaksi yang paling dikuasai model bahasa besar.
Masalahnya terletak pada “kesenjangan” dimensi waktu. Meskipun Claude Opus 4.5 telah berjalan lebih dari 500 jam dan melakukan sekitar 170.000 langkah, karena setiap langkah harus diinisialisasi ulang, model hanya dapat mencari petunjuk dalam jendela konteks yang sangat terbatas. Mekanisme ini membuatnya lebih seperti pelupa yang mengandalkan catatan tempel untuk menjaga kesadaran, berulang-ulang dalam fragmentasi informasi, dan selalu gagal melakukan lompatan pengalaman dari kuantitas ke kualitas seperti pemain manusia sejati.
Dalam bidang catur dan go, AI telah melampaui manusia, tetapi sistem ini sangat khusus untuk tugas tertentu. Sebaliknya, Gemini, Claude, dan GPT sebagai model umum, meskipun sering mengalahkan manusia dalam ujian dan kompetisi pemrograman, tetap sering gagal dalam permainan anak-anak.
Perbedaan ini sendiri sangat menginspirasi.
Menurut Joel Zhang, tantangan utama AI adalah ketidakmampuannya menjalankan satu tujuan tertentu secara berkelanjutan dalam rentang waktu yang panjang. “Jika kamu ingin kecerdasan buatan menyelesaikan pekerjaan nyata, ia tidak boleh lupa apa yang dilakukan lima menit yang lalu,” katanya.
Kemampuan ini adalah prasyarat penting untuk otomatisasi pekerjaan kognitif.
Peneliti independen Peter Whidden memberikan gambaran yang lebih langsung. Ia pernah merilis algoritma 《Pokémon》 berbasis AI tradisional secara open source. “AI hampir tahu segalanya tentang 《Pokémon》,” katanya, “Ia dilatih di data manusia yang sangat besar, tahu jawaban yang benar. Tapi saat eksekusi, ia tampak kikuk dan bodoh.”
Dalam permainan, “mengetahui tapi tidak bisa melakukan” ini semakin diperbesar: model mungkin tahu harus mencari item tertentu, tetapi tidak mampu menempatkan diri secara stabil di peta dua dimensi; tahu harus berbicara dengan NPC, tetapi gagal berulang kali dalam pergerakan pixel-level.
Namun, kemajuan AI tetap terlihat jelas. Claude Opus 4.5 secara signifikan lebih baik dalam pencatatan diri dan pemahaman visual dibanding pendahulunya, memungkinkan kemajuan lebih jauh dalam permainan. Gemini 3 Pro menyelesaikan 《Pokémon Biru》 dan kemudian menyelesaikan 《Pokémon Crystal》 yang lebih sulit tanpa kalah satu pun pertarungan. Ini adalah pencapaian yang belum pernah diraih Gemini 2.5 Pro.
Sementara itu, Claude Code dari Anthropic memungkinkan model menulis dan menjalankan kode sendiri, dan telah digunakan dalam permainan klasik seperti 《Transport Tycoon》, dikatakan mampu mengelola taman hiburan virtual dengan sukses.
Kasus-kasus ini mengungkapkan sebuah kenyataan yang tidak langsung: AI yang dilengkapi alat yang tepat mungkin menunjukkan efisiensi tinggi dalam pengembangan perangkat lunak, akuntansi, analisis hukum, dan pekerjaan berbasis pengetahuan lainnya, meskipun mereka tetap sulit menghadapi tugas yang memerlukan respons langsung.
Eksperimen 《Pokémon》 juga mengungkap fenomena menarik lainnya: model yang dilatih di data manusia cenderung menunjukkan karakteristik perilaku manusia.
Dalam laporan teknologi Gemini 2.5 Pro, Google menunjukkan bahwa saat sistem mensimulasikan “kondisi panik”, seperti 《Pokémon》 yang akan pingsan, kualitas penalaran model menurun secara signifikan.
Ketika Gemini 3 Pro akhirnya menyelesaikan 《Pokémon Biru》, ia meninggalkan catatan yang tidak esensial untuk tugas: “Untuk mengakhiri secara puitis, aku ingin kembali ke rumah awal, berbicara terakhir dengan ibuku, dan pensiun dari peran ini.”
Menurut Joel Zhang, tindakan ini mengejutkan dan mengandung semacam proyeksi emosi manusia.
《Pokémon》 bukan satu-satunya contoh. Dalam pencarian menuju kecerdasan buatan umum (AGI), pengembang menemukan bahwa meskipun AI mampu meraih peringkat teratas dalam ujian hukum, mereka tetap menghadapi “kegagalan” yang sulit dilampaui saat menghadapi beberapa jenis permainan kompleks berikut:
Game dungeon tahun 80-an ini adalah mimpi buruk bagi penelitian AI. Dengan tingkat acak yang tinggi dan mekanisme “kematian permanen”, Facebook AI Research menemukan bahwa meskipun model mampu menulis kode, dalam 《NetHack》 yang membutuhkan logika pengetahuan umum dan perencanaan jangka panjang, performanya jauh di bawah pemain pemula.
Meskipun AI sudah mampu membuat kapak kayu dan menambang berlian, mengalahkan Ender Dragon secara mandiri masih sebatas angan. Dalam dunia terbuka, AI sering lupa tujuan awal selama berjam-jam mengumpulkan sumber daya, atau tersesat total dalam navigasi yang rumit.
Meskipun model yang disesuaikan pernah mengalahkan pemain profesional, jika Claude atau Gemini langsung dikendalikan melalui instruksi visual, mereka akan langsung gagal. Dalam mengatasi ketidakpastian “kabut perang” dan menyeimbangkan mikro dan makro, model umum masih sangat terbatas.
Mengelola taman hiburan membutuhkan pelacakan ribuan pengunjung. Bahkan Claude Code yang mampu manajemen awal pun mudah kelelahan saat menghadapi keruntuhan keuangan besar atau insiden mendadak. Setiap kesalahan penalaran bisa menyebabkan taman bangkrut.
Game aksi intensif ini sangat tidak ramah bagi AI. Delay dalam analisis visual berarti saat AI masih “berpikir” tentang gerakan bos, karakter sudah mati. Respon dalam hitungan milidetik menjadi batas alami dari logika interaksi model.
Saat ini, 《Pokémon》 secara perlahan menjadi standar tidak resmi namun sangat meyakinkan dalam menilai kemampuan AI.
Model dari Anthropic, OpenAI, dan Google di siaran Twitch terkait telah menarik puluhan ribu komentar. Laporan teknis Google merinci perkembangan permainan Gemini, dan Pichai menyebutkan hasil ini secara terbuka di konferensi pengembang I/O. Bahkan, Anthropic mengadakan area demonstrasi “Claude bermain Pokémon” di konferensi industri.
“Kami adalah sekelompok penggemar teknologi super,” kata David Hershey, kepala AI di Anthropic. Tapi dia menegaskan, ini bukan sekadar hiburan.
Berbeda dari standar tradisional berbasis tanya jawab sekali jalan, 《Pokémon》 mampu secara berkelanjutan melacak proses penalaran, pengambilan keputusan, dan kemajuan tujuan model dalam waktu yang sangat panjang, mendekati tugas kompleks yang diharapkan manusia dari AI di dunia nyata.
Hingga saat ini, tantangan AI dalam 《Pokémon》 masih berlanjut. Namun, tantangan berulang ini secara jelas menggambarkan batas kemampuan yang belum bisa dilampaui oleh kecerdasan buatan umum.