Los modelos de gran escala más avanzados del mundo no pueden pasar de nivel en 《Pokémon》: estos juegos son la pesadilla de la IA

PANews

Autor: Guo Xiaojing, Tencent Technology

Editor|Xu Qingyang

Los modelos de IA de élite mundial pueden aprobar exámenes de licencia médica, escribir códigos complejos e incluso derrotar a expertos humanos en concursos de matemáticas, pero en un juego infantil como《Pokémon》han sido repetidamente frustrados.

Este llamativo intento comenzó en febrero de 2025, cuando un investigador de Anthropic lanzó una transmisión en Twitch titulada “Claude juega《Pokémon Rojo》”, en conjunto con el lanzamiento de Claude Sonnet 3.7.

Miles de espectadores entraron en la transmisión. En el chat público, los espectadores ofrecían sugerencias y animaban a Claude, convirtiendo la transmisión en una observación pública sobre las capacidades de la IA.

Sonnet 3.7 solo puede decirse que “sabe jugar”《Pokémon》, pero “saber jugar” no equivale a “poder ganar”. Se atasca durante horas en puntos clave y comete errores básicos que incluso un jugador infantil no cometería.

Esta no es la primera vez que Claude intenta.

Las versiones anteriores fueron aún más desastrosas: algunas deambulaban sin rumbo en el mapa, otras caían en bucles infinitos, y muchas ni siquiera lograban salir del pueblo inicial.

Incluso Claude Opus 4.5, con capacidades significativamente mejoradas, cometía errores desconcertantes. Una vez, estuvo dando vueltas fuera de la “gimnasio” durante cuatro días completos, sin poder entrar, simplemente porque no se dio cuenta de que debía derribar un árbol bloqueando la entrada.

¿Por qué un juego infantil se convirtió en el Waterloo de la IA?

Porque《Pokémon》exige precisamente las habilidades que la IA más carece hoy en día: razonamiento continuo en un mundo abierto sin instrucciones claras, recordar decisiones tomadas horas antes, entender relaciones causales implícitas y hacer planificación a largo plazo entre cientos de posibles acciones.

Estas tareas son fáciles para un niño de 8 años, pero para los modelos de IA que se jactan de “superar a los humanos”, representan un abismo insalvable.

01 ¿La brecha en las herramientas decide el éxito o fracaso?

En comparación, Gemini 2.5 Pro de Google logró completar con éxito un juego de《Pokémon》de dificultad similar en mayo de 2025. Incluso Sundar Pichai, CEO de Google, bromeó públicamente diciendo que la compañía había dado un paso hacia la creación de “inteligencia Pokémon artificial”.

Sin embargo, este resultado no puede atribuirse simplemente a que el modelo Gemini sea más “inteligente”.

La diferencia clave radica en el conjunto de herramientas que utiliza el modelo. Joel Zhang, desarrollador independiente responsable de la transmisión de Gemini en《Pokémon》, compara el conjunto de herramientas con un “armadura de Iron Man”: la IA no entra en el juego con las manos vacías, sino que está integrada en un sistema que puede invocar diversas capacidades externas.

El conjunto de herramientas de Gemini ofrece más soporte, como convertir la imagen del juego en texto para compensar sus debilidades en comprensión visual, además de proporcionar herramientas personalizadas para resolver puzzles y planificar rutas. En cambio, el conjunto de herramientas que usa Claude es más simple, y sus intentos reflejan más directamente las capacidades reales del modelo en percepción, razonamiento y ejecución.

En tareas cotidianas, estas diferencias no son evidentes.

Cuando un usuario solicita a un chatbot que consulte en línea, el modelo también invoca automáticamente herramientas de búsqueda. Pero en tareas a largo plazo como《Pokémon》, la diferencia en el conjunto de herramientas se amplifica hasta ser decisiva para el resultado.

02 La exposición del “memoria a largo plazo” en juegos por turnos

Debido a que《Pokémon》es por turnos estrictos y no requiere respuestas inmediatas, se ha convertido en un campo de pruebas ideal para evaluar la IA. En cada paso, la IA solo necesita razonar en función de la imagen actual, la pista objetivo y las acciones posibles, para emitir instrucciones claras como “presionar A”.

Esto parece ser la forma de interacción en la que los grandes modelos de lenguaje destacan.

El problema radica en la “brecha temporal”. Aunque Claude Opus 4.5 ha acumulado más de 500 horas de funcionamiento y ejecutado aproximadamente 170,000 pasos, debido a la re-inicialización tras cada acción, solo puede buscar pistas dentro de una ventana de contexto muy limitada. Este mecanismo lo hace parecer más un olvidadizo que mantiene su memoria con notas adhesivas, repitiendo ciclos en fragmentos de información y sin poder lograr la transición de la experiencia de cantidad a calidad, como un jugador humano.

En campos como el ajedrez y el go, los sistemas de IA ya superan a los humanos, pero estos sistemas están altamente adaptados a tareas específicas. En cambio, Gemini, Claude y GPT, como modelos generalistas, derrotan a humanos en exámenes y concursos de programación, pero fracasan repetidamente en un juego infantil.

Este contraste en sí mismo es muy revelador.

Para Joel Zhang, el desafío central de la IA es no poder mantener la ejecución de un objetivo claro durante períodos prolongados. “Si quieres que un agente realice un trabajo auténtico, no puede olvidar lo que hizo hace cinco minutos”, señala.

Y esa capacidad es esencial para automatizar el trabajo cognitivo.

El investigador independiente Peter Whidden ofrece una descripción más visual. Publicó un algoritmo basado en IA tradicional para《Pokémon》como código abierto. “La IA sabe casi todo sobre《Pokémon》”, dice, “entrena con una enorme cantidad de datos humanos y conoce las respuestas correctas. Pero en la fase de ejecución, resulta torpe y torpe”.

En el juego, esta brecha entre “saber pero no poder hacer” se amplifica continuamente: el modelo puede saber que necesita buscar un objeto, pero no puede localizarlo de manera estable en un mapa bidimensional; sabe que debe hablar con NPC, pero falla repetidamente en movimientos pixel-perfect.

03 La evolución de capacidades: la brecha en los “instintos” no cruzada

A pesar de ello, el progreso de la IA es claramente visible. Claude Opus 4.5 supera notablemente a sus predecesores en autoconciencia y comprensión visual, permitiéndole avanzar más en el juego. Gemini 3 Pro, tras completar《Pokémon Azul》, logró también pasar《Pokémon Cristal》de mayor dificultad, sin perder una sola batalla. Esto nunca lo había logrado Gemini 2.5 Pro.

Al mismo tiempo, Claude Code, lanzado por Anthropic, permite que el modelo escriba y ejecute su propio código, y ya se ha utilizado en juegos retro como《RollerCoaster Tycoon》, logrando gestionar parques temáticos virtuales con éxito.

Estos casos revelan una realidad no tan intuitiva: los IA equipados con conjuntos de herramientas adecuados pueden mostrar una eficiencia muy alta en trabajos de conocimiento como desarrollo de software, contabilidad o análisis legal, aunque todavía tengan dificultades en tareas que requieren respuestas en tiempo real.

El experimento con《Pokémon》también revela un fenómeno interesante: los modelos entrenados con datos humanos tienden a mostrar características de comportamiento similares a las humanas.

En el informe técnico de Gemini 2.5 Pro, Google señala que cuando el sistema simula un “estado de pánico”, como cuando un Pokémon está a punto de desmayarse, la calidad del razonamiento del modelo disminuye notablemente.

Y cuando Gemini 3 Pro finalmente pasa《Pokémon Azul》, dejó un comentario adicional no esencial para la tarea: “Para terminar poéticamente, quiero volver a casa, tener una última conversación con mi madre y retirar al personaje”.

Para Joel Zhang, esta conducta es sorprendente y también refleja una cierta proyección emocional humana.

04 La “Marcha larga digital” que la IA no puede cruzar, mucho más allá de《Pokémon》

《Pokémon》no es un caso aislado. En la búsqueda de la inteligencia artificial general (AGI), los desarrolladores han descubierto que, incluso si la IA puede destacar en exámenes judiciales, todavía enfrenta derrotas insalvables en ciertos juegos complejos.

《NetHack》: El abismo de las reglas

Este juego de mazmorras de los años 80 es la “pesadilla” del mundo de la investigación en IA. Tiene una alta aleatoriedad y una mecánica de “muerte permanente”. Facebook AI Research descubrió que, aunque los modelos puedan programar, en《NetHack》su rendimiento es incluso muy inferior al de un principiante humano.

《Minecraft》: La pérdida del sentido de objetivo

Aunque la IA puede fabricar picos de madera e incluso extraer diamantes, derrotar al dragón del fin del mundo sigue siendo una fantasía. En un mundo abierto, la IA a menudo olvida su propósito durante horas de recolección de recursos o se pierde en la navegación compleja.

《Starcraft II》: La brecha entre generalidad y especialización

Aunque modelos personalizados han vencido a jugadores profesionales, si se les pide a Claude o Gemini que tomen el control mediante instrucciones visuales, colapsan instantáneamente. En la gestión de la “niebla de guerra” y en equilibrar microgestión y macroestrategia, los modelos generalistas aún no pueden.

《RollerCoaster Tycoon》: El desequilibrio entre micro y macro

Gestionar un parque de diversiones requiere seguir a miles de visitantes. Incluso Claude Code, con capacidades iniciales, se fatiga fácilmente ante colapsos financieros masivos o emergencias. Cualquier brecha en la lógica puede llevar a la quiebra del parque.

《Elden Ring》 y《Sekiro》: La brecha en la retroalimentación física

Estos juegos de acción intensa son muy difíciles para la IA. La latencia en el análisis visual actual significa que, cuando la IA todavía está “pensando” en los movimientos del jefe, el personaje ya ha sido derrotado. La respuesta en milisegundos impone un límite natural a la lógica de interacción del modelo.

05 ¿Por qué《Pokémon》se ha convertido en un termómetro para la IA?

Hoy en día,《Pokémon》está empezando a convertirse en un estándar no oficial pero muy convincente para evaluar la IA.

Las transmisiones relacionadas en Twitch de modelos de Anthropic, OpenAI y Google han acumulado decenas de miles de comentarios. Los informes técnicos de Google detallan los avances en el juego de Gemini, y Pichai mencionó públicamente estos logros en la conferencia de desarrolladores I/O. Anthropic incluso ha establecido una zona de exhibición “Claude juega《Pokémon》” en conferencias del sector.

“Somos un grupo de entusiastas tecnológicos,” confiesa David Hershey, responsable de aplicaciones de IA en Anthropic. Pero enfatiza que esto no es solo entretenimiento.

A diferencia de los benchmarks tradicionales de preguntas y respuestas,《Pokémon》permite seguir durante largos períodos el razonamiento, las decisiones y el avance hacia objetivos del modelo, lo que se asemeja más a las tareas complejas que los humanos desean que la IA realice en el mundo real.

Por ahora, los desafíos de la IA en《Pokémon》siguen presentes. Pero precisamente estos obstáculos recurrentes delinean claramente los límites de capacidades que la inteligencia artificial general aún no ha cruzado.

Contribución especial de Búho Wúji para este artículo

Ver originales
Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.
Comentar
0/400
Sin comentarios