Aunque los modelos de IA líderes a nivel mundial pueden rendir excepcionalmente en exámenes médicos, programación y otras áreas profesionales, en juegos infantiles como 《Pokémon》 suelen fracasar una y otra vez, revelando sus deficiencias fundamentales en razonamiento a largo plazo, memoria y planificación. Este artículo proviene de la cuenta pública de Tencent Technology, autor: Guo Jingxiao.
(Resumen previo: Uso IA para jugar a la guerra: GPT o3 es un maestro de la estrategia, DeepSeek un fanático de la guerra, Claude como un ingenuo)
(Información adicional: ¡Google «Gemini 2.0» ha llegado! Lanzamiento de tres tipos de agentes de IA: tareas complejas, juegos, programación)
Índice del artículo
Los modelos de IA de élite mundial pueden aprobar exámenes médicos, escribir código complejo e incluso vencer a expertos humanos en competiciones matemáticas, pero fracasan una y otra vez en un juego infantil como 《Pokémon》.
Este intento destacado comenzó en febrero de 2025, cuando un investigador de Anthropic lanzó una transmisión en Twitch titulada «Claude juega a 《Pokémon Rojo》», en paralelo con el lanzamiento de Claude Sonnet 3.7.
Miles de espectadores entraron en la transmisión. En el chat público, los espectadores daban ideas y animaban a Claude, convirtiendo la transmisión en una observación pública de las capacidades de la IA.
Sonnet 3.7 solo puede decir que «sabe jugar» a 《Pokémon》, pero «saber jugar» no equivale a «ganar». Se atasca en puntos clave durante horas, comete errores básicos que incluso un niño no cometería.
No es la primera vez que Claude intenta esto.
Las versiones anteriores eran aún más desastrosas: algunas deambulaban sin objetivo en el mapa, otras caían en bucles infinitos, y muchas ni siquiera lograban salir del pueblo inicial.
Incluso Claude Opus 4.5, con capacidades significativamente mejoradas, comete errores desconcertantes. Una vez, dio vueltas fuera de la «sala de gimnasio» durante cuatro días, sin poder entrar, simplemente porque no se dio cuenta de que debía cortar un árbol que bloqueaba la entrada.
¿Por qué un juego infantil se convirtió en el Waterloo de la IA?
Porque 《Pokémon》 exige precisamente las habilidades que la IA actual carece más: razonamiento continuo en un mundo abierto sin instrucciones claras, recordar decisiones tomadas horas antes, entender relaciones causales implícitas y hacer planificación a largo plazo entre cientos de posibles acciones.
Estas tareas son fáciles para un niño de 8 años, pero para los modelos de IA que se jactan de «superar a los humanos», representan un abismo insalvable.
En comparación, Gemini 2.5 Pro de Google logró completar con éxito un 《Pokémon》 de dificultad similar en mayo de 2025. El CEO de Google, Sundar Pichai, incluso bromeó públicamente diciendo que la compañía había dado un paso hacia la creación de una «inteligencia Pokémon artificial».
Sin embargo, este resultado no puede atribuirse simplemente a que el modelo Gemini sea más «inteligente».
La diferencia clave radica en el conjunto de herramientas que utiliza el modelo. Joel Zhang, desarrollador independiente responsable de la transmisión de 《Pokémon》 con Gemini, compara el conjunto de herramientas con una «armadura de Iron Man»: la IA no entra en el juego con las manos vacías, sino que está integrada en un sistema que puede invocar diversas capacidades externas.
El conjunto de herramientas de Gemini ofrece más soporte, como convertir la imagen del juego en texto para compensar su debilidad en comprensión visual, además de proporcionar herramientas personalizadas para resolver acertijos y planificar rutas. En cambio, el conjunto de herramientas de Claude es más simple, y sus intentos reflejan más directamente las capacidades reales del modelo en percepción, razonamiento y ejecución.
En tareas cotidianas, estas diferencias no son evidentes.
Cuando un usuario solicita al chatbot que consulte en línea, el modelo también invoca automáticamente herramientas de búsqueda. Pero en tareas a largo plazo como 《Pokémon》, la diferencia en el conjunto de herramientas puede determinar el éxito o fracaso.
Dado que 《Pokémon》 usa un sistema de turnos estricto y no requiere respuestas inmediatas, se ha convertido en un excelente «campo de entrenamiento» para probar la IA. En cada paso, la IA solo necesita razonar combinando la pantalla actual, las indicaciones y las acciones posibles, y puede emitir instrucciones claras como «presionar A».
Esto parece ser la forma de interacción en la que los grandes modelos de lenguaje destacan.
El problema radica en la «brecha temporal». Aunque Claude Opus 4.5 ha acumulado más de 500 horas de juego y realizado unas 170,000 acciones, debido a la re-inicialización tras cada paso, solo puede buscar pistas en una ventana de contexto muy limitada. Este mecanismo hace que sea más parecido a un olvidadizo que mantiene la memoria con notas adhesivas, repitiendo ciclos en información fragmentada y sin poder experimentar la transición de la cantidad a la calidad, como un jugador humano.
En campos como el ajedrez y el go, los sistemas de IA ya superan a los humanos, pero estos sistemas están altamente especializados para tareas específicas. En cambio, Gemini, Claude y GPT, como modelos generalistas, vencen a humanos en exámenes y concursos de programación, pero fracasan en juegos infantiles.
Este contraste en sí mismo es muy revelador.
Para Joel Zhang, el desafío central de la IA radica en no poder mantener un objetivo claro durante largos períodos. «Si quieres que una entidad inteligente realice un trabajo auténtico, no puede olvidar lo que hizo hace cinco minutos», señala.
Y esa capacidad es esencial para automatizar el trabajo cognitivo.
El investigador independiente Peter Whidden ofrece una descripción más intuitiva. Publicó un algoritmo de 《Pokémon》 basado en IA tradicional como código abierto. «La IA sabe casi todo sobre 《Pokémon》», dice, «se entrena con una enorme cantidad de datos humanos y conoce las respuestas correctas. Pero en la fase de ejecución, resulta torpe y torpe».
En el juego, esta brecha entre «saber pero no poder hacer» se amplifica continuamente: el modelo puede saber que necesita buscar un objeto, pero no puede localizarlo de forma estable en un mapa bidimensional; sabe que debe hablar con NPC, pero falla repetidamente en movimientos pixel a pixel.
A pesar de ello, el progreso de la IA sigue siendo evidente. Claude Opus 4.5 supera claramente a sus predecesores en autogestión y comprensión visual, permitiéndole avanzar más en los juegos. Gemini 3 Pro completó 《Pokémon Azul》 y también logró pasar 《Pokémon Cristal》, sin perder una sola batalla, algo que Gemini 2.5 Pro nunca había conseguido.
Al mismo tiempo, el conjunto de herramientas Claude Code de Anthropic permite que el modelo escriba y ejecute su propio código, y ya se ha utilizado en juegos retro como 《Transport Tycoon》, logrando gestionar con éxito un parque temático virtual.
Estos casos revelan una realidad no intuitiva: un IA equipado con el conjunto de herramientas adecuado puede mostrar una eficiencia extraordinaria en trabajos de conocimiento como desarrollo de software, contabilidad y análisis legal, aunque aún tenga dificultades en tareas que requieren respuestas inmediatas.
El experimento con 《Pokémon》 también revela un fenómeno interesante: los modelos entrenados con datos humanos muestran características de comportamiento similares a las humanas.
En el informe técnico de Gemini 2.5 Pro, Google señala que cuando el sistema simula un «estado de pánico», como cuando un 《Pokémon》 está a punto de desmayarse, la calidad de su razonamiento disminuye notablemente.
Y cuando Gemini 3 Pro finalmente pasa 《Pokémon Azul》, deja una nota adicional no esencial para la tarea: «Para terminar poéticamente, quiero volver a casa, tener una última conversación con mi madre y retirar al personaje».
Para Joel Zhang, esta acción resulta sorprendente y también lleva cierta proyección emocional humana.
《Pokémon》 no es un caso aislado. En la búsqueda de la inteligencia artificial general (AGI), los desarrolladores descubren que, incluso si la IA puede destacar en exámenes judiciales, todavía enfrenta obstáculos insalvables en ciertos juegos complejos, como los siguientes:
Este juego de mazmorras de los años 80 es la «pesadilla» del mundo de la investigación en IA. Tiene una aleatoriedad extrema y un mecanismo de «muerte permanente». Facebook AI Research descubrió que, aunque los modelos puedan programar, en 《NetHack》, que requiere lógica de sentido común y planificación a largo plazo, su rendimiento es incluso muy inferior al de un principiante humano.
Aunque la IA puede fabricar picos de madera e incluso extraer diamantes, derrotar al dragón del End por sí sola sigue siendo una fantasía. En un mundo abierto, la IA a menudo olvida su objetivo durante horas de recolección de recursos o se pierde completamente en la navegación compleja.
Aunque modelos personalizados han vencido a jugadores profesionales, si se les pide a Claude o Gemini que tomen el control mediante instrucciones visuales, colapsan instantáneamente. La incertidumbre del «neblina de guerra» y la necesidad de equilibrar microgestión y macroconstrucción aún están fuera de su alcance.
Gestionar un parque temático requiere seguir a miles de visitantes. Incluso Claude Code, con capacidades iniciales de gestión, se fatiga fácilmente ante colapsos financieros o emergencias. Cualquier brecha en la razonamiento puede llevar a la bancarrota del parque.
Estos juegos de acción intensa son muy difíciles para la IA. La latencia en el análisis visual significa que, cuando la IA todavía está «pensando» en los movimientos del jefe, el personaje ya ha sido derrotado. La necesidad de reacciones en milisegundos limita naturalmente la lógica de interacción del modelo.
Hoy en día, 《Pokémon》 se está convirtiendo en un estándar no oficial pero muy convincente para evaluar la IA.
Los modelos de Anthropic, OpenAI y Google han generado decenas de miles de comentarios en transmisiones en Twitch relacionadas. Google documenta en su informe técnico el progreso en el juego de Gemini, y Pichai mencionó públicamente este logro en la conferencia de desarrolladores I/O. Anthropic incluso ha establecido una zona de exhibición «Claude juega a 《Pokémon》» en conferencias del sector.
«Somos un grupo de entusiastas tecnológicos», confiesa David Hershey, responsable de IA en Anthropic. Pero enfatiza que esto no es solo entretenimiento.
A diferencia de los estándares tradicionales de preguntas y respuestas, 《Pokémon》 permite seguir durante largos períodos el razonamiento, las decisiones y la progresión de objetivos del modelo, acercándose más a las tareas complejas que los humanos desean que la IA realice en el mundo real.
Hasta ahora, los desafíos de la IA en 《Pokémon》 continúan. Pero precisamente estos obstáculos recurrentes delinean claramente los límites de capacidades que la inteligencia artificial general aún no ha superado.