Les meilleurs grands modèles mondiaux ne peuvent pas passer « Pokémon » : ces jeux sont un cauchemar pour l'IA

PANews

Auteur : Guo Xiaojing, Tencent Technology

Éditeur|Xu Qingyang

Les modèles d’IA de classe mondiale peuvent passer l’examen de licence médicale, écrire du code complexe, voire battre des experts humains lors de compétitions de mathématiques, mais ils rencontrent de nombreuses difficultés dans un jeu pour enfants, 《Pokémon》.

Cette tentative remarquée a débuté en février 2025, lorsqu’un chercheur d’Anthropic a lancé une diffusion Twitch intitulée « Claude joue à 《Pokémon Rouge》 », en parallèle avec la sortie de Claude Sonnet 3.7.

2000 spectateurs ont afflué dans le chat en direct. Dans la zone de discussion publique, les spectateurs ont conseillé, encouragé Claude, transformant peu à peu cette diffusion en une observation publique des capacités de l’IA.

Sonnet 3.7 peut dire qu’il « joue » à 《Pokémon》, mais « jouer » ne signifie pas « gagner ». Il se bloque pendant des dizaines d’heures à des moments clés, et commet même des erreurs élémentaires que de jeunes joueurs ne feraient pas.

Ce n’est pas la première tentative de Claude.

Les versions antérieures étaient encore plus catastrophiques : certaines erraient sans but sur la carte, d’autres entraient dans des boucles infinies, et beaucoup ne pouvaient même pas sortir du village du débutant.

Même avec une capacité nettement améliorée, Claude Opus 4.5 commet encore des erreurs incompréhensibles. Une fois, il a tourné en rond devant « la salle d’arène » pendant quatre jours, sans jamais pouvoir entrer, simplement parce qu’il n’avait pas réalisé qu’il fallait abattre un arbre bloquant l’entrée.

Pourquoi un jeu pour enfants est-il devenu le Waterloo de l’IA ?

Parce que 《Pokémon》 exige justement la capacité la plus manquante chez l’IA actuelle : raisonner en continu dans un monde ouvert sans instructions précises, se souvenir des décisions prises il y a plusieurs heures, comprendre les relations de cause à effet implicites, et faire une planification à long terme parmi des centaines d’actions possibles.

Ces tâches sont faciles pour un enfant de 8 ans, mais constituent un gouffre infranchissable pour un modèle d’IA qui prétend « surpasser l’humain ».

01 La différence d’outillage détermine la réussite ou l’échec ?

En comparaison, Gemini 2.5 Pro de Google a réussi à passer un jeu 《Pokémon》 d’un niveau de difficulté comparable en mai 2025. Le PDG de Google, Sundar Pichai, a même plaisanté en public en disant que l’entreprise avait fait un pas vers la création d’une « intelligence Pokémon artificielle ».

Cependant, ce résultat ne peut pas être simplement attribué à une intelligence plus « brillante » du modèle Gemini.

La différence clé réside dans l’ensemble d’outils utilisés par le modèle. Joel Zhang, développeur indépendant responsable de la diffusion de Gemini 《Pokémon》, compare cet ensemble à une « armure Iron Man » : l’IA n’entre pas dans le jeu à mains nues, mais est intégrée dans un système capable d’appeler diverses capacités externes.

L’ensemble d’outils de Gemini offre plus de support, comme la transcription de l’image du jeu en texte, comblant ainsi ses faiblesses en compréhension visuelle, et fournissant des outils de résolution d’énigmes et de planification de trajectoire sur mesure. En revanche, l’ensemble d’outils utilisé par Claude est plus minimaliste, et ses tentatives reflètent directement ses capacités réelles en perception, raisonnement et exécution.

Dans les tâches quotidiennes, ces différences ne sont pas évidentes.

Lorsque l’utilisateur demande au chatbot de faire une recherche en ligne, le modèle appelle automatiquement l’outil de recherche. Mais dans des tâches longues comme 《Pokémon》, la différence d’outillage devient cruciale, pouvant déterminer la réussite ou l’échec.

02 La tour par tour expose la faiblesse de la « mémoire à long terme » de l’IA

Grâce à son mode de tour par tour strict, sans réaction immédiate, 《Pokémon》 est devenu un terrain d’entraînement idéal pour tester l’IA. À chaque étape, l’IA doit simplement raisonner en combinant l’image courante, l’indication de l’objectif et les actions possibles, pour produire une instruction claire comme « appuyer sur A ».

Cela semble être la forme d’interaction dans laquelle les grands modèles de langage excellent.

Le problème réside dans la « coupure » temporelle. Bien que Claude Opus 4.5 ait accumulé plus de 500 heures de fonctionnement et effectué environ 170 000 mouvements, il ne peut analyser qu’un contexte très limité à chaque étape, en raison de la réinitialisation après chaque action. Ce mécanisme le fait ressembler à un amnésique qui ne se souvient que de ce qu’il peut coller avec des post-it, tournant en boucle dans des fragments d’informations, incapable de faire la transition d’une expérience quantitative à une expérience qualitative, comme un vrai joueur humain.

Dans des domaines comme les échecs ou le go, l’IA a déjà dépassé l’humain, mais ces systèmes sont hautement spécialisés pour des tâches précises. En revanche, Gemini, Claude et GPT, en tant que modèles universels, battent souvent l’humain lors d’examens ou de concours de programmation, mais échouent à plusieurs reprises dans un jeu pour enfants.

Ce contraste est en soi très révélateur.

Selon Joel Zhang, le défi central de l’IA est qu’elle ne peut pas maintenir une exécution continue d’un objectif clair sur une longue période. « Si vous voulez que l’agent fasse un vrai travail, il ne doit pas oublier ce qu’il a fait il y a cinq minutes », souligne-t-il.

Et cette capacité est essentielle pour automatiser le travail cognitif.

Peter Whidden, chercheur indépendant, donne une description plus intuitive. Il a publié en open source un algorithme basé sur une IA traditionnelle pour 《Pokémon》. « L’IA connaît presque tout de 《Pokémon》 », dit-il, « elle s’entraîne sur une masse de données humaines, connaît la bonne réponse. Mais lors de l’exécution, elle se montre maladroite. »

Dans le jeu, cette coupure entre « savoir » et « pouvoir faire » est constamment amplifiée : le modèle peut savoir qu’il faut chercher un objet, mais ne peut pas le localiser de façon stable sur la carte en 2D ; il peut connaître qu’il doit parler à un PNJ, mais échoue à se déplacer pixel par pixel.

03 L’évolution des capacités : le fossé « instinctif » non franchi

Pourtant, les progrès de l’IA restent visibles. Claude Opus 4.5 est nettement meilleur que ses prédécesseurs en auto-enregistrement et en compréhension visuelle, ce qui lui permet d’aller plus loin dans le jeu. Gemini 3 Pro a terminé 《Pokémon Bleu》, puis a réussi 《Pokémon Cristal》, un niveau de difficulté supérieur, sans perdre un seul combat. Ce que Gemini 2.5 Pro n’avait jamais réalisé.

Par ailleurs, l’outil Claude Code d’Anthropic permet au modèle d’écrire et d’exécuter son propre code, et a été utilisé pour des jeux rétro comme 《RollerCoaster Tycoon》, avec la capacité de gérer avec succès un parc d’attractions virtuel.

Ces exemples révèlent une réalité peu intuitive : un IA équipée d’un bon ensemble d’outils peut faire preuve d’une efficacité extrême dans le développement logiciel, la comptabilité, l’analyse juridique, même si elle reste difficile à faire réagir en temps réel.

L’expérience 《Pokémon》 met aussi en lumière un phénomène intriguant : les modèles entraînés sur des données humaines tendent à présenter des comportements proches de ceux des humains.

Dans le rapport technique de Gemini 2.5 Pro, Google indique que lorsque le système simule un « état de panique », comme lorsque Pokémon est sur le point de s’évanouir, la qualité de son raisonnement chute nettement.

Et lorsque Gemini 3 Pro a finalement terminé 《Pokémon Bleu》, il a laissé une note non essentielle à la tâche : « Pour finir poétiquement, je retourne à la maison d’origine, pour une dernière conversation avec ma mère, et laisser le personnage prendre sa retraite. »

Selon Joel Zhang, ce comportement est inattendu, et comporte une certaine projection émotionnelle humaine.

04 La « longue marche numérique » que l’IA ne peut pas franchir dépasse largement 《宝可梦》

《宝可梦》 n’est pas une exception. Sur la voie de l’AGI (intelligence artificielle générale), les développeurs constatent que même si l’IA excelle dans l’examen de droit, elle rencontre encore des « Waterloo » insurmontables face à certains jeux complexes.

《NetHack》 : l’abîme des règles

Ce jeu de donjon des années 80 est le « cauchemar » de la recherche en IA. Sa forte randomisation et sa mécanique de « mort permanente » posent problème. Facebook AI Research a découvert qu’un modèle capable d’écrire du code performait même moins bien que des débutants humains face à 《NetHack》, qui requiert logique de bon sens et planification à long terme.

《Minecraft》 : la disparition du sens de l’objectif

Bien que l’IA puisse fabriquer une pioche en bois ou même miner des diamants, vaincre le dragon de l’Ender reste une illusion. Dans un monde ouvert, l’IA oublie souvent son objectif initial lors de longues heures de collecte de ressources, ou se perd complètement dans la navigation complexe.

《Starcraft II》 : le fossé entre généraliste et spécialiste

Même si des modèles spécialisés ont battu des joueurs professionnels, faire passer Claude ou Gemini directement par des instructions visuelles les ferait s’effondrer instantanément. Face à l’incertitude du « brouillard de guerre » et à la gestion équilibrée entre micro et macro, ces modèles généralistes restent faibles.

《RollerCoaster Tycoon》 : déséquilibre micro-macro

Gérer un parc d’attractions nécessite de suivre des milliers de visiteurs. Même Claude Code, doté de capacités de gestion initiales, se fatigue rapidement face à des crises financières majeures ou des accidents imprévus. Toute rupture de raisonnement peut entraîner la faillite du parc.

《Elden Ring》 et 《Sekiro》 : le fossé du retour physique

Ces jeux d’action intense sont très difficiles pour l’IA. La latence dans la reconnaissance visuelle signifie qu’au moment où l’IA « réfléchit » à l’attaque du boss, le personnage est déjà mort. La réaction en millisecondes limite naturellement la logique d’interaction du modèle.

05 Pourquoi 《宝可梦》 devient-il une référence pour l’IA ?

Aujourd’hui, 《宝可梦》 devient progressivement une référence informelle mais très convaincante pour évaluer l’IA.

Les diffusions liées de modèles d’Anthropic, OpenAI et Google sur Twitch ont attiré des centaines de milliers de commentaires. Google détaille dans ses rapports techniques l’avancement de Gemini dans le jeu, Pichai en parle lors de la conférence I/O. Anthropic a même créé un espace « Claude joue à 《宝可梦》 » lors d’une conférence sectorielle.

« Nous sommes un groupe de passionnés de technologie », confie David Hershey, responsable de l’application IA chez Anthropic. Mais il insiste sur le fait que ce n’est pas seulement du divertissement.

Contrairement aux benchmarks traditionnels à questions-réponses, 《宝可梦》 permet de suivre en continu le raisonnement, la prise de décision et la progression vers un objectif du modèle sur une très longue période, ce qui se rapproche davantage des tâches complexes que l’on souhaite voir l’IA accomplir dans le monde réel.

Pour l’instant, le défi de l’IA dans 《宝可梦》 persiste. Mais ces difficultés récurrentes dessinent clairement les limites des capacités que l’IA générale n’a pas encore franchies.

Contributeur spécial : Wu Ji a également participé à cet article

Voir l'original
Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.
Commentaire
0/400
Aucun commentaire