
Penulis: Guo Xiaojing, Tencent Technology
Editor|Xu Qingyang
Model AI terbaik di dunia dapat mengikuti ujian lisensi medis, menulis kode kompleks, bahkan mengalahkan ahli manusia dalam kompetisi matematika, tetapi justru sering gagal dalam sebuah permainan anak-anak 《Pokémon》.
Percobaan yang menarik perhatian ini dimulai pada Februari 2025, ketika seorang peneliti dari Anthropic meluncurkan siaran Twitch berjudul “Claude Main 《Pokémon Merah》”, bersamaan dengan peluncuran Claude Sonnet 3.7.
2000 penonton memadati ruang siaran. Di ruang obrolan umum, penonton memberi saran dan semangat kepada Claude, sehingga siaran ini perlahan berkembang menjadi observasi terbuka tentang kemampuan AI.
Sonnet 3.7 hanya mampu “main” 《Pokémon》, tetapi “mampu main” tidak sama dengan “bisa menang”. Ia akan terjebak di titik penting selama puluhan jam, dan melakukan kesalahan tingkat dasar yang bahkan anak-anak pemain pun tidak akan lakukan.
Ini bukan kali pertama Claude mencoba.
Versi awalnya jauh lebih buruk: ada yang berkeliaran tanpa tujuan di peta, ada yang terjebak dalam loop tak berujung, dan lebih parah lagi, ada yang bahkan tidak bisa keluar dari desa pemula.
Bahkan Claude Opus 4.5 yang kemampuan meningkat pesat pun masih melakukan kesalahan yang membingungkan. Suatu kali, ia berputar-putar di luar “gym” selama empat hari penuh, tetapi tidak pernah masuk, hanya karena tidak menyadari harus memotong pohon yang menghalangi jalan di persimpangan.
Mengapa sebuah permainan anak-anak menjadi batu sandungan AI?
Karena 《Pokémon》 justru menuntut kemampuan yang saat ini paling kurang dari AI: melakukan penalaran berkelanjutan dalam dunia terbuka tanpa instruksi yang jelas, mengingat keputusan beberapa jam sebelumnya, memahami hubungan sebab-akibat yang tersirat, dan membuat rencana jangka panjang dari ratusan kemungkinan tindakan.
Hal-hal ini mudah dilakukan oleh anak berusia 8 tahun, tetapi menjadi jurang tak tertembus bagi model AI yang mengklaim “melampaui manusia”.
Sebaliknya, Gemini 2.5 Pro dari Google pada Mei 2025 berhasil menyelesaikan sebuah 《Pokémon》 yang tingkat kesulitannya setara. CEO Google Sundar Pichai bahkan secara terbuka bercanda bahwa perusahaan telah melangkah dalam membangun “kecerdasan Pokémon buatan”.
Namun, hasil ini tidak bisa disimpulkan hanya karena model Gemini lebih “cerdas”.
Perbedaan utama terletak pada alat yang digunakan oleh model tersebut. Pengembang independen yang mengelola siaran 《Pokémon》 Gemini, Joel Zhang, menyamakan alat ini seperti “armor Iron Man”: AI tidak masuk ke permainan dengan tangan kosong, melainkan ditempatkan dalam sistem yang dapat memanggil berbagai kemampuan eksternal.
Alat Gemini menyediakan lebih banyak dukungan, seperti mentranskripsi tampilan permainan menjadi teks, mengatasi kelemahan pemahaman visual model, dan menyediakan alat pemecahan teka-teki serta perencanaan jalur yang disesuaikan. Sebaliknya, alat yang digunakan Claude lebih sederhana, dan percobaannya lebih langsung mencerminkan kemampuan nyata model dalam persepsi, penalaran, dan eksekusi.
Dalam tugas sehari-hari, perbedaan ini tidak terlalu kentara.
Ketika pengguna meminta chatbot untuk melakukan pencarian online, model secara otomatis akan memanggil alat pencarian. Tetapi dalam tugas jangka panjang seperti 《Pokémon》, perbedaan alat ini menjadi faktor penentu keberhasilan atau kegagalan.
Karena 《Pokémon》 menggunakan sistem giliran yang ketat dan tidak memerlukan respons langsung, ini menjadi arena latihan yang sangat baik untuk menguji AI. Dalam setiap langkah, AI cukup menggabungkan tampilan saat ini, petunjuk target, dan opsi yang tersedia untuk melakukan penalaran, lalu mengeluarkan instruksi yang jelas seperti ‘tekan A’.
Ini tampaknya adalah bentuk interaksi yang paling dikuasai model bahasa besar.
Masalahnya terletak pada “kesenjangan” waktu. Meskipun Claude Opus 4.5 telah berjalan lebih dari 500 jam dan melakukan sekitar 170.000 langkah, karena setiap langkah harus diinisialisasi ulang, model hanya dapat mencari petunjuk dalam jendela konteks yang sangat terbatas. Mekanisme ini membuatnya lebih mirip orang yang mengandalkan catatan tempel untuk mengingat, dan terus-menerus mengulang informasi yang terfragmentasi, sehingga tidak pernah mampu melakukan lompatan pengalaman dari kuantitas ke kualitas seperti manusia sejati.
Dalam bidang catur dan go, AI sudah melampaui manusia, tetapi sistem ini dirancang untuk tugas tertentu yang sangat spesifik. Sebaliknya, Gemini, Claude, dan GPT sebagai model umum, meskipun sering mengalahkan manusia dalam ujian dan kompetisi pemrograman, sering gagal dalam sebuah permainan anak-anak.
Perbedaan ini sendiri sangat mengandung pelajaran.
Menurut Joel Zhang, tantangan utama AI adalah ketidakmampuannya untuk mempertahankan fokus pada satu tujuan yang jelas dalam jangka waktu yang panjang. “Jika kamu ingin agen cerdas menyelesaikan pekerjaan nyata, ia tidak boleh lupa apa yang dilakukan lima menit yang lalu,” katanya.
Kemampuan ini adalah prasyarat penting untuk otomatisasi pekerjaan kognitif.
Peneliti independen Peter Whidden memberikan gambaran yang lebih langsung. Ia pernah merilis algoritma 《Pokémon》 berbasis AI tradisional secara open source. “AI hampir tahu segalanya tentang 《Pokémon》,” katanya, “Ia dilatih di atas data manusia yang sangat banyak, tahu jawaban yang benar. Tapi saat eksekusi, ia tampak gagap dan kikuk.”
Dalam permainan, “pengetahuan tapi tidak mampu melakukan” ini terus diperbesar: model mungkin tahu harus mencari item tertentu, tetapi tidak mampu menempatkan diri secara stabil di peta dua dimensi; tahu harus berbicara dengan NPC, tetapi gagal berulang kali dalam pergerakan pixel-per-pixel.
Namun, kemajuan AI tetap terlihat jelas. Claude Opus 4.5 secara signifikan lebih baik dalam pencatatan diri dan pemahaman visual dibanding pendahulunya, sehingga mampu melangkah lebih jauh dalam permainan. Gemini 3 Pro setelah menyelesaikan 《Pokémon Biru》, juga menyelesaikan 《Pokémon Kristal》 yang tingkat kesulitannya lebih tinggi, dan tidak pernah kalah dalam satu pertarungan pun. Ini adalah pencapaian yang belum pernah diraih Gemini 2.5 Pro.
Selain itu, Claude Code dari Anthropic memungkinkan model menulis dan menjalankan kode sendiri, dan telah digunakan dalam game klasik seperti 《RollerCoaster Tycoon》, yang diklaim mampu mengelola taman hiburan virtual dengan sukses.
Kasus-kasus ini mengungkapkan sebuah kenyataan yang tidak langsung: AI yang dilengkapi alat yang tepat mungkin menunjukkan efisiensi tinggi dalam pekerjaan berbasis pengetahuan seperti pengembangan perangkat lunak, akuntansi, dan analisis hukum, meskipun mereka tetap sulit menghadapi tugas yang memerlukan respons secara real-time.
Eksperimen 《Pokémon》 juga mengungkap fenomena menarik lainnya: model yang dilatih di atas data manusia cenderung menunjukkan karakteristik perilaku manusia.
Dalam laporan teknologi Gemini 2.5 Pro, Google menyebutkan bahwa ketika sistem mensimulasikan “kondisi panik”, seperti 《Pokémon》 yang akan pingsan, kualitas penalaran model menurun secara signifikan.
Ketika Gemini 3 Pro akhirnya menyelesaikan 《Pokémon Biru》, ia meninggalkan catatan yang tidak penting untuk tugas: “Untuk mengakhiri secara puitis, aku kembali ke rumah awal, berbicara terakhir dengan ibuku, dan membiarkan karakter pensiun.”
Menurut Joel Zhang, tindakan ini mengejutkan dan mengandung semacam proyeksi emosi manusia.
《Pokémon》 bukan satu-satunya contoh. Dalam pencarian menuju kecerdasan buatan umum (AGI), pengembang menemukan bahwa bahkan jika AI mampu meraih peringkat teratas dalam ujian hukum, mereka tetap menghadapi “kekalahan” yang tak teratasi saat menghadapi beberapa jenis permainan kompleks berikut:
《NetHack》: Jurang aturan

Game dungeon tahun 80-an ini adalah mimpi buruk bagi penelitian AI. Dengan tingkat acak yang tinggi dan mekanisme “kematian permanen”, Facebook AI Research menemukan bahwa meskipun model mampu menulis kode, dalam 《NetHack》 yang membutuhkan logika pengetahuan umum dan perencanaan jangka panjang, performanya jauh di bawah pemula manusia.
《Minecraft》: Hilangnya rasa tujuan

Meskipun AI sudah mampu membuat kapak kayu dan menambang berlian, “mengalahkan Ender Dragon” tetap sebatas angan. Dalam dunia terbuka, AI sering lupa tujuan awal selama berjam-jam mengumpulkan sumber daya, atau tersesat total dalam navigasi yang rumit.
《Starcraft II》: Jurang antara umum dan khusus

Meskipun model yang disesuaikan pernah mengalahkan pemain profesional, jika Claude atau Gemini langsung dikendalikan melalui instruksi visual, mereka akan langsung gagal. Dalam menghadapi ketidakpastian “kabut perang”, serta menyeimbangkan mikro dan makro, model umum masih sangat terbatas.
《RollerCoaster Tycoon》: Ketidakseimbangan mikro dan makro

Mengelola taman hiburan membutuhkan pelacakan ribuan pengunjung. Bahkan Claude Code yang memiliki kemampuan manajemen dasar pun mudah kelelahan saat menghadapi keruntuhan keuangan besar atau insiden mendadak. Setiap kesalahan penalaran bisa menyebabkan taman bangkrut.
《Elden Ring》 dan 《Sekiro》: Jurang feedback fisik

Game aksi dengan feedback fisik yang kuat ini sangat tidak ramah terhadap AI. Saat ini, delay dalam analisis visual berarti saat AI masih “berpikir” tentang gerakan bos, karakter biasanya sudah mati. Reaksi dalam hitungan milidetik menjadi batas alami dari logika interaksi model.
Saat ini, 《Pokémon》 secara perlahan menjadi standar pengujian tidak resmi namun sangat meyakinkan dalam bidang evaluasi AI.
Model dari Anthropic, OpenAI, dan Google dalam siaran Twitch terkait telah menarik ratusan ribu komentar. Laporan teknis Google merinci perkembangan permainan Gemini, dan Pichai menyebutkan pencapaian ini secara terbuka di konferensi pengembang I/O. Bahkan, Anthropic mengadakan area demonstrasi “Claude Main Pokémon” di konferensi industri.
“Kami adalah sekelompok penggemar teknologi super,” ungkap David Hershey, kepala pengembangan AI di Anthropic. Tapi dia menegaskan, ini bukan sekadar hiburan.
Berbeda dari standar pengujian satu kali yang bersifat tanya jawab, 《Pokémon》 mampu secara berkelanjutan melacak proses penalaran, pengambilan keputusan, dan kemajuan tujuan model dalam waktu yang sangat lama, mendekati tugas kompleks yang diharapkan manusia dari AI di dunia nyata.
Hingga saat ini, tantangan AI dalam 《Pokémon》 masih berlanjut. Tetapi, dari kesulitan yang terus muncul ini, secara jelas tergambar batas kemampuan yang belum bisa dilampaui oleh kecerdasan buatan umum.
Kontributor khusus: Wu Ji