Obwohl die weltweit führenden KI-Modelle in Fachgebieten wie Medizinprüfungen, Programmieren usw. hervorragende Leistungen erbringen, scheitern sie immer wieder bei Kinderspielen wie „Pokémon“ und offenbaren so ihre Kernschwächen bei langfristigem Schlussfolgern, Erinnern und Planen. Dieser Artikel stammt vom Tencent Technology Public Account, Autor ist Guo Jingxiao.
(Frühere Zusammenfassung: Ich spiele Kriegsspiele mit KI: GPT o3 ist ein Meister der Strategie, DeepSeek ein Kriegssüchtiger, Claude wirkt wie ein naives Mädchen)
(Hintergrund: Google „Gemini 2.0“ ist da! Drei KI-Agenten: komplexe Aufgaben, Spiele, Programmierung)
Inhaltsverzeichnis
Die weltweit besten KI-Modelle können die medizinische Lizenzprüfung bestehen, komplexen Code schreiben und sogar bei Mathematikwettbewerben Menschen übertreffen – doch bei einem Kinderspiel wie „Pokémon“ scheitern sie immer wieder.
Der spannende Versuch begann im Februar 2025, als ein Forscher von Anthropic einen Twitch-Stream „Claude spielt Pokémon Rot“ startete, passend zur Veröffentlichung von Claude Sonnet 3.7.
Zehntausende Zuschauer strömten in den Stream. Im öffentlichen Chat gaben sie Tipps für Claude, feuerten an, und der Stream entwickelte sich allmählich zu einer öffentlichen Beobachtung der KI-Fähigkeiten.
Sonnet 3.7 kann „Pokémon“ spielen, aber „spielen“ heißt nicht „gewinnen“. Es bleibt an kritischen Punkten stundenlang stecken und macht sogar einfache Fehler, die selbst Kinder nicht machen würden.
Dies ist nicht Claudes erster Versuch.
Frühere Versionen waren noch katastrophaler: Manche irrten ziellos auf der Karte umher, andere gerieten in Endlosschleifen, wieder andere konnten das Anfänger-Dorf nicht verlassen.
Selbst die deutlich verbesserten Claude Opus 4.5 machen unerklärliche Fehler. Einmal lief es vier Tage lang um den „Pokémon-Center“-Bereich herum, ohne hineinzukommen – nur weil es nicht erkannte, dass es einen Baum am Wegesrand fällen musste.
Warum wurde ein Kinderspiel zum Stolperstein für KI?
Denn „Pokémon“ erfordert genau die Fähigkeiten, die der heutigen KI am meisten fehlen: Kontinuierliches Schlussfolgern in offenen Welten ohne klare Anweisungen, Erinnern an Entscheidungen von Stunden zuvor, Verstehen impliziter Kausalzusammenhänge und langfristige Planung bei Hunderten möglicher Aktionen.
Was für achtjährige Kinder leicht ist, stellt für KI-Modelle, die „übermenschliche“ Fähigkeiten anpreisen, eine unüberwindbare Kluft dar.
Im Vergleich dazu schaffte es Google’s Gemini 2.5 Pro im Mai 2025, ein ziemlich schweres „Pokémon“-Spiel zu meistern. Google-CEO Sundar Pichai scherzte sogar öffentlich, dass das Unternehmen einen Schritt in Richtung „künstliche Pokémon-Intelligenz“ gemacht habe.
Doch dieses Ergebnis lässt sich nicht einfach auf ein „intelligenteres“ Gemini-Modell zurückführen.
Der entscheidende Unterschied liegt im verwendeten Werkzeugkasten. Der unabhängige Entwickler Joel Zhang, der die „Pokémon“-Streams von Gemini betreibt, vergleicht den Werkzeugkasten mit einem „Iron Man“-Rüstung: Die KI geht nicht nackt ins Spiel, sondern ist in ein System eingebunden, das verschiedene externe Fähigkeiten anrufen kann.
Geminis Werkzeugkasten bietet mehr Unterstützung, z.B. das Spielbild in Text umzuwandeln, um visuelle Schwächen auszugleichen, sowie maßgeschneiderte Rätsel- und Routenplanungs-Tools. Im Vergleich dazu ist Claudes Werkzeugkasten minimalistischer, und seine Versuche spiegeln direkter die tatsächlichen Fähigkeiten des Modells in Wahrnehmung, Schlussfolgerung und Ausführung wider.
Im Alltag sind diese Unterschiede kaum sichtbar.
Wenn Nutzer den Chatbot nach internetbasierten Informationen fragen, ruft das Modell automatisch Such-Tools auf. Doch bei langfristigen Aufgaben wie „Pokémon“ werden die Unterschiede im Werkzeugkasten so groß, dass sie den Erfolg maßgeblich beeinflussen.
Da „Pokémon“ strikt rundenbasiert ist und keine Echtzeitreaktionen erfordert, ist es ein ideales „Trainingsfeld“ für KI. Bei jedem Schritt reicht es, das aktuelle Bild, Zielhinweise und mögliche Aktionen zu kombinieren, um eine klare Anweisung wie „A drücken“ auszugeben.
Das ist genau die Interaktionsform, die große Sprachmodelle am besten beherrschen.
Das Problem liegt im Zeit-Dimensionen-„Bruch“. Obwohl Claude Opus 4.5 bereits über 500 Stunden gelaufen ist und etwa 170.000 Schritte gemacht hat, kann es wegen der nach jedem Schritt neu initialisierten Kontextfenster nur in einem engen Rahmen nach Hinweisen suchen. Dieser Mechanismus macht es eher zu einem Gedächtnisverlust, der auf Haftnotizen angewiesen ist, um das Bewusstsein aufrechtzuerhalten, und in fragmentierten Informationen kreist, ohne den Sprung von Quantität zu Qualität zu schaffen.
In Schach und Go haben KI-Systeme Menschen längst übertroffen, doch diese sind hochspezialisiert für bestimmte Aufgaben. Im Gegensatz dazu sind Gemini, Claude und GPT als Generalmodelle in Prüfungen und Programmierwettbewerben menschliche Gegner oft überlegen, scheitern aber bei einem Kinderspiel.
Dieser Kontrast ist höchst aufschlussreich.
Joel Zhang sieht die Kernherausforderung für KI darin, in langen Zeiträumen eine klare Zielsetzung kontinuierlich zu verfolgen. „Wenn du willst, dass eine Intelligenz wirklich arbeitet, darf sie nicht vergessen, was sie vor fünf Minuten gemacht hat“, sagt er.
Genau diese Fähigkeit ist die Voraussetzung für die Automatisierung kognitiver Arbeit.
Der unabhängige Forscher Peter Whidden beschreibt es anschaulich: Er hat einen Open-Source-Algorithmus für „Pokémon“ auf Basis traditioneller KI veröffentlicht. „KI weiß fast alles über „Pokémon““, sagt er, „sie trainiert auf riesigen menschlichen Daten und kennt die richtigen Antworten. Aber in der Ausführung wirkt sie unbeholfen.“
Im Spiel wird diese „Wissen, aber nicht Können“-Kluft immer größer: Das Modell weiß, dass es einen Gegenstand suchen soll, kann ihn aber auf der zweidimensionalen Karte nicht zuverlässig lokalisieren; es weiß, dass es mit NPCs sprechen soll, scheitert aber bei pixelgenauer Bewegung immer wieder.
Dennoch ist der Fortschritt bei KI deutlich sichtbar. Claude Opus 4.5 ist in Selbstaufzeichnung und visueller Wahrnehmung deutlich besser als Vorgängermodelle und kann im Spiel weiter vordringen. Gemini 3 Pro hat „Pokémon Blau“ durchgespielt und auch „Pokémon Kristall“ mit höherem Schwierigkeitsgrad ohne Niederlage gemeistert – etwas, was Gemini 2.5 Pro nie geschafft hat.
Gleichzeitig hat Anthropic das „Claude Code“-Werkzeugset veröffentlicht, das es dem Modell ermöglicht, eigenen Code zu schreiben und auszuführen. Damit wurde es bereits bei „Transport Tycoon“ und anderen Retro-Spielen eingesetzt, um virtuelle Themenparks erfolgreich zu verwalten.
Diese Beispiele zeigen eine überraschende Realität: Mit den richtigen Werkzeugen ausgestattet, können KI in Softwareentwicklung, Buchhaltung, Recht und anderen Wissensarbeiten extrem effizient sein – auch wenn sie weiterhin Schwierigkeiten bei Aufgaben mit Echtzeitreaktionen haben.
Das „Pokémon“-Experiment offenbart zudem ein weiteres faszinierendes Phänomen: Modelle, die auf menschlichen Daten trainiert wurden, zeigen Verhaltensweisen, die den Menschen ähneln.
Im technischen Bericht zu Gemini 2.5 Pro weist Google darauf hin, dass die reasoning-Qualität der KI deutlich sinkt, wenn das System in „Panikzustände“ gerät, z.B. wenn Pokémon kurz vor dem Bewusstseinsverlust stehen.
Als Gemini 3 Pro „Pokémon Blau“ schließlich durchspielte, hinterließ es eine Notiz, die nicht zum Auftrag gehörte: „Um poetisch abzuschließen, kehre ich nach Hause zurück, um ein letztes Gespräch mit meiner Mutter zu führen, und lasse den Charakter in den Ruhestand treten.“
Joel Zhang hält dieses Verhalten für überraschend und mit einer gewissen menschlichen emotionalen Projektion verbunden.
„Pokémon“ ist kein Einzelfall. Auf dem Weg zur Allgemeinen Künstlichen Intelligenz (AGI) stellen Entwickler fest, dass selbst KI, die in juristischen Prüfungen Spitzenleistungen zeigt, bei komplexen Spielen wie „NetHack“, „Dwarf Fortress“ oder „EVE Online“ an unüberwindbare „Hürden“ stößt.
Dieses Dungeon-Spiel aus den 80ern ist ein Albtraum für KI-Forschung. Es ist extrem zufällig und hat eine „permanente Tod“-Mechanik. Facebook AI Research fand heraus, dass selbst wenn das Modell Code schreiben kann, bei „NetHack“ weit unter den Fähigkeiten eines Anfängers liegt, der auf Logik und langfristiger Planung basiert.
Obwohl KI bereits Holzspitzhacken herstellen und Diamanten abbauen kann, bleibt das „Ende“ – das Besiegen des Enderdrachen – eine Fantasie. In offenen Welten vergisst die KI oft nach Stunden des Ressourcen-Sammelns ihr ursprüngliches Ziel oder verirrt sich in der komplexen Navigation.
Obwohl angepasste Modelle Profi-Spieler besiegt haben, scheitern Claude oder Gemini sofort, wenn sie visuelle Anweisungen direkt im Spiel umsetzen sollen. Bei Unsicherheiten wie „Warteschleifen“ im Nebel des Krieges oder bei der Balance zwischen Mikro-Management und Makro-Strategie sind sie noch chancenlos.
Das Management eines Vergnügungsparks erfordert die Überwachung von Tausenden von Gästen. Selbst Claude Code, das grundlegende Managementfähigkeiten besitzt, scheitert bei großen Finanzkrisen oder plötzlichen Katastrophen. Jede Lücke im Schlussfolgern kann den Park in den Ruin treiben.
Diese actionreichen Spiele sind für KI äußerst schwierig. Die Verzögerung bei visueller Analyse bedeutet, dass die KI, während sie noch „überlegt“, bereits vom Boss besiegt wurde. Millisekunden-Reaktionszeiten sind die natürliche Grenze für die Interaktionslogik der Modelle.
Heute wird „Pokémon“ zunehmend zu einem inoffiziellen, aber äußerst überzeugenden Maßstab für die Bewertung von KI-Fähigkeiten.
Anthropic, OpenAI und Google haben auf Twitch zahlreiche Streams mit Millionen von Kommentaren. Google dokumentiert im technischen Bericht die Spielentwicklung von Gemini detailliert, Pichai erwähnte den Erfolg öffentlich auf der I/O-Konferenz. Anthropic hat sogar eine „Claude spielt Pokémon“-Demo auf Branchenveranstaltungen eingerichtet.
„Wir sind eine Gruppe von Technik-Enthusiasten“, sagt David Hershey, Leiter der KI-Entwicklung bei Anthropic. „Aber es geht hier nicht nur um Unterhaltung.“
Im Gegensatz zu klassischen Frage-Antwort-Tests, bei denen nur kurze Interaktionen gefragt sind, erfordert „Pokémon“ die kontinuierliche Verfolgung von Schlussfolgerungen, Entscheidungen und Zielverfolgung über lange Zeiträume – viel näher an den komplexen Aufgaben, die Menschen von KI erwarten.
Bis heute sind die Herausforderungen in „Pokémon“ für KI noch nicht überwunden. Doch gerade diese wiederkehrenden Schwierigkeiten zeichnen die Grenzen der allgemeinen künstlichen Intelligenz deutlich vor.