Bei Turing-Preisträger und ehemaligen leitenden Wissenschaftler bei Meta AI Yann LeCun hat das neu gegründete Advanced Machine Intelligence (AMI) kürzlich eine große Seed-Finanzierung in Höhe von 1,03 Milliarden US-Dollar abgeschlossen. Das „World Model“ ist erneut zu einem populären Schlüsselbegriff im Bereich der künstlichen Intelligenz geworden. Obwohl die AI-Community häufig über „world models“ diskutiert, unterscheiden sich die Konzepte, auf die sich verschiedene Forscher beziehen, erheblich.
(Deep Dive: Schwächen bei LLM? Warum LeCun auf den Weg des World Models setzt)
Meta AI-Forscher Zhuokai Zhao veröffentlichte kürzlich einen längeren Beitrag in sozialen Medien, in dem er fünf verschiedene technische Ansätze für sogenannte „world models“ im aktuellen AI-Bereich identifizierte. Er ist der Ansicht, dass diese Methoden eigentlich kein direkter Wettbewerb sind, sondern unterschiedliche Probleme auf verschiedenen Ebenen lösen.
JEPA: Komprimiertes physikalisches Verständnis
Spatial Intelligence: Rekonstruktion der 3D-Welt
Learned Simulation: Training von KI in simulierten Welten
NVIDIA Cosmos: Bereitstellung der Infrastruktur
Active Inference: Entwicklung neuer Theorien für Intelligenz
Er erwartet, dass die Grenzen zwischen diesen Ansätzen bald verschwimmen werden.
Ansatz 1: LeCuns JEPA, Weltverstehen im abstrakten Raum
Zhao ist der Meinung, dass die erste Kategorie des „world models“ die Joint Embedding Predictive Architecture (JEPA) ist, bei der Yann LeCun eine führende Rolle spielt.
Das Kernprinzip von JEPA ist: KI sollte nicht versuchen, jedes Pixel vorherzusagen, sondern in einem abstrakten Repräsentationsraum die Zukunft prognostizieren.
In der realen Welt sind viele Details unvorhersehbar, etwa Lichtveränderungen, die genaue Position von Blättern oder Oberflächenstrukturen. Wenn das Modell alle Pixel generieren müsste, würde es mit einer Vielzahl bedeutungsloser Details konfrontiert.
JEPA geht daher so vor: Zunächst werden Bilder oder Videos mit einem Encoder in eine abstrakte Repräsentation umgewandelt. In diesem Repräsentationsraum werden dann verdeckte Bereiche vorhergesagt. Dadurch kann das Modell lernen, etwa „Der Ball fällt vom Tisch“, ohne jeden einzelnen Frame generieren zu müssen.
Meta’s V-JEPA 2 ist eines der derzeit repräsentativsten Experimente. Das Modell wurde mit einer Million Stunden Video-Daten selbstüberwacht trainiert. Danach genügte eine Trainingszeit von nur 62 Stunden mit Roboterdaten, um ein Weltmodell zu erstellen, das null-shot-Planung unterstützt. Der Roboter generiert mögliche Bewegungsfolgen, gibt diese in das Weltmodell ein und wählt die Sequenz, deren Vorhersage am besten mit dem Zielbild übereinstimmt. Diese Methode funktioniert auch bei Objekten und Umgebungen, die während des Trainings noch nie gesehen wurden.
Die hohe Daten-Effizienz ist ein entscheidender Grund, warum AMI auf die JEPA-Architektur setzt. Wenn die Repräsentation ausreichend gut ist, braucht man nicht bei jedem neuen Auftrag alles von Grund auf zu erkunden. Das AMI Labs ist LeCuns Versuch, diese Technik von der Forschung in die Anwendung zu überführen. Sie konzentrieren sich zunächst auf Medizin und Robotik. Es ist eine langfristige Investition, und der CEO hat öffentlich erklärt, dass kommerzielle Produkte noch Jahre entfernt sein könnten.
Ansatz 2: Fei-Fei Li’s „Raumintelligenz“
Ein weiterer bekannter Ansatz stammt von Fei-Fei Li, Gründerin von World Labs.
(Wer ist die AI-Göttin Fei-Fei Li? Das Startup Unicorn World Labs erhält Unterstützung von Nvidia und AMD)
Im Gegensatz zu JEPA, das „die Zukunft vorhersagt“, lautet die zentrale Frage bei Li: „Wie sieht die Welt in drei Dimensionen aus?“ Ihr Konzept nennt sich Spatial Intelligence (Raumintelligenz). Es basiert auf der Annahme, dass echtes Verständnis eine klare räumliche Struktur erfordert: Geometrie, Tiefe, Persistenz sowie die Fähigkeit, Szenen aus neuen Blickwinkeln zu betrachten – nicht nur Zeitvorhersagen. Während JEPA auf abstrakte Dynamik setzt, lernt diese Methode eine strukturierte 3D-Darstellung der Umgebung, die direkt manipuliert werden kann.
Das Produkt Marble von World Labs kann aus Bildern, Texten und Videos eine dauerhaft existierende 3D-Welt generieren. Im Gegensatz zu herkömmlichen Video-Generatoren erzeugt Marble echte 3D-Szenen. Man kann die Perspektive frei bewegen, Objekte ändern und 3D-Modelle exportieren. Es ist eher eine 3D-Kreativ-Engine als ein reines Generierungsmodell.
Ansatz 3: DeepMind’s „Lernende simulierte Welten“
Die dritte Kategorie umfasst „Learned Simulation“ – lernbasierte Simulationen.
Relevante Projekte sind:
DeepMind Genie 3
Dreamer-Serie
Runway GWM-1
Diese Modelle versuchen, interaktive simulierte Welten zu schaffen, in denen KI lernen kann.
Ansatz 4: NVIDIA’s Physische KI-Infrastruktur
Der vierte Ansatz besteht nicht darin, ein einzelnes Modell zu bauen, sondern eine komplette Plattform-Ökologie zu schaffen. Das bekannteste Beispiel ist NVIDIA mit seiner Cosmos-Plattform, die eine vollständige Infrastruktur bietet:
Video-Datenverarbeitung
Visuelle Tokenizer
Modelltraining
Bereitstellungsdienste
Das „World Foundation Model“ von Cosmos wurde mit 20 Millionen Stunden realer Videodaten trainiert, mit einem Token-Volumen von 9000 Billionen.
(Nach dem Start des NVIDIA Alpamayo-Ökosystems: KI für autonomes Fahren mit Erklärbarkeit)
Nvidia verfolgt eine klare Strategie: Es ist nicht zwingend notwendig, selbst ein Weltmodell zu entwickeln. Stattdessen stellt das Unternehmen Werkzeuge bereit, mit denen jeder eigene Weltmodelle bauen kann.
Ansatz 5: Active Inference (Neuro-Wissenschaft)
Der letzte Ansatz basiert auf neuro-wissenschaftlichen Theorien. Vertreter ist der Neurowissenschaftler Karl Friston, der das bekannte Free Energy Principle (Freie-Energie-Prinzip) formulierte. Im Gegensatz zum klassischen Reinforcement Learning sieht Active Inference KI als eine Art Lebewesen, das ständig versucht, die Welt zu verstehen. Es handelt aktiv, um seine Vorhersagen zu verbessern und „Abweichungen von den Erwartungen“ zu minimieren.
Das Unternehmen VERSES AI hat das AXIOM-System entwickelt, das objektorientiert arbeitet: Jedes Objekt ist eine eigenständige Entität, und das System aktualisiert Überzeugungen mittels Bayes’scher Inferenz, ohne auf tiefes neuronales Netz und Gradiententraining angewiesen zu sein. Diese Architektur ist erklärbar, modular und äußerst daten-effizient. Im April 2025 wurde das kommerzielle Produkt „Genius“ veröffentlicht. Die AXIOM-Tests auf Standardkontrollaufgaben zeigen, dass es mit RL-Baselines konkurrieren kann, bei deutlich geringerem Datenverbrauch.
Die nächste große Herausforderung für KI: Das Verständnis der Welt
Zhao schließt mit der Feststellung, dass diese fünf „world model“-Ansätze sich nicht gegenseitig ausschließen, sondern vielmehr unterschiedliche Probleme lösen:
JEPA: Komprimiertes physikalisches Verständnis
Spatial Intelligence: Rekonstruktion der 3D-Welt
Learned Simulation: Training in simulierten Welten
NVIDIA Cosmos: Bereitstellung der Infrastruktur
Active Inference: Entwicklung neuer Intelligenztheorien
Mit dem Fortschreiten der KI in Richtung Robotik, autonomes Fahren und physische KI (Physical AI) ist zu erwarten, dass diese Technologien in Zukunft schnell verschmelzen werden.
Dieser Artikel enthüllt die fünf wichtigsten Strömungen im Bereich der „World Models“: Was sind die AI-Ansätze, auf die LeCun und Li setzen? Ursprünglich veröffentlicht bei ABMedia.