Große Sprachmodelle (LLMs) stoßen an ihre Grenzen. Während sie bei der Verarbeitung von Text hervorragend sind, hat die heutige KI bei realen Anwendungen wie Robotik und autonomem Fahren Probleme, weil ihr ein grundlegendes Verständnis dafür fehlt, wie Dinge funktionieren. Diese Einschränkung führt zu massiven Investitionen in „Weltmodelle“ – KI-Systeme, die Physik und Kausalität simulieren und nicht nur das nächste Wort vorhersagen. Investoren haben bereits über 2 Milliarden US-Dollar in Startups wie AMI Labs und World Labs gesteckt, was einen großen Wandel in der KI-Entwicklung signalisiert.
Das Problem mit reiner Vorhersage
LLMs funktionieren, indem sie das wahrscheinlichste nächste Token (Wort oder Pixel) vorhersagen. Sie ahmen die menschliche Sprache nach, ohne die physischen Konsequenzen ihrer Handlungen wirklich zu verstehen. Turing-Award-Gewinner Richard Sutton warnt davor, dass dieser Ansatz die Fähigkeit der KI einschränkt, aus Erfahrungen zu lernen und sich an Veränderungen anzupassen. Demis Hassabis, CEO von Google DeepMind, nennt dies „gezackte Intelligenz“: KI kann abstrakte Tests bestehen, scheitert aber bei der grundlegenden Physik. Diese Sprödheit bedeutet, dass Modelle bereits bei geringfügigen Eingabeänderungen leicht kaputt gehen.
Das Kernproblem besteht darin, dass die aktuelle KI die Welt nicht modelliert ; es nachahmt, was die Leute darüber sagen. Aus diesem Grund können sich selbst fortschrittliche Vision-Language-Modelle (VLMs) in unvorhersehbaren Umgebungen unregelmäßig verhalten.
Drei Ansätze zum Aufbau von Weltmodellen
Forscher priorisieren nun KI-Systeme, die als interne Simulatoren fungieren und Hypothesen testen, bevor sie Maßnahmen ergreifen. Dies hat zu drei Hauptarchitekturansätzen geführt, von denen jeder einzigartige Stärken und Schwächen aufweist.
JEPA: Effizienz in Echtzeit
Der erste Ansatz, der von AMI Labs unterstützt wird, konzentriert sich auf latente Darstellungen – das Erlernen der Grundregeln der Interaktion, ohne sich jedes Detail zu merken. Basierend auf der Joint Embedding Predictive Architecture (JEPA) ahmt diese Methode die menschliche Wahrnehmung nach: Wir verfolgen Flugbahnen, nicht jedes Blatt im Hintergrund.
JEPA-Modelle verwerfen irrelevante Daten und machen sie dadurch recheneffizient. Dies ist ideal für Robotik, selbstfahrende Autos und andere Echtzeitanwendungen, bei denen Geschwindigkeit entscheidend ist. AMI Labs arbeitet bereits mit Gesundheitsunternehmen zusammen, um die kognitive Belastung in schnelllebigen Umgebungen zu reduzieren. Laut Yann LeCun sind JEPA-basierte Modelle darauf ausgelegt, Ziele kontrollierbar zu erreichen.
Gaussian Splats: Räumliches Eintauchen
World Labs geht einen anderen Weg und erstellt vollständige 3D-Umgebungen aus Eingabeaufforderungen unter Verwendung generativer Modelle und Gaußscher Splats (mathematische Partikel, die Geometrie und Beleuchtung definieren). Dadurch werden die Kosten für die Erstellung interaktiver 3D-Räume drastisch reduziert und das vom World Labs-Gründer Fei-Fei Li identifizierte Problem des „Wordsmith in the Dark“ angegangen.
Diese 3D-Darstellungen sind direkt mit der Physik und 3D-Engines wie der Unreal Engine kompatibel und ermöglichen eine nahtlose Interaktion. Obwohl dieser Ansatz nicht ideal für die Ausführung in Sekundenbruchteilen ist, bietet er ein enormes Potenzial für räumliches Computing, Unterhaltung und Industriedesign. Autodesk investiert stark in diese Technologie, um sie in seine Designanwendungen zu integrieren.
End-to-End-Generierung: Skalierbare Simulation
DeepMinds Genie 3 und Nvidias Cosmos stellen einen dritten Ansatz dar: die Generierung ganzer Szenen, Physik und Reaktionen im laufenden Betrieb. Das Modell ist die Engine, die Eingabeaufforderungen und Aktionen in Echtzeit verarbeitet.
Dies ermöglicht die Generierung umfangreicher synthetischer Daten, sodass Entwickler seltene oder gefährliche Szenarien ohne physische Risiken testen können. Waymo passt Genie 3 an, um seine selbstfahrenden Autos zu trainieren, und Nvidia nutzt Cosmos für die Entwicklung autonomer Fahrzeuge. Der Nachteil ist der hohe Rechenaufwand, aber die Möglichkeit, vollständige physische Interaktionen zu simulieren, ist bahnbrechend.
Die Zukunft: Hybride Architekturen
LLMs werden für Argumentation und Kommunikation weiterhin von entscheidender Bedeutung sein. Weltmodelle werden jedoch zur grundlegenden Infrastruktur für physische und räumliche Datenpipelines. Die nächste Welle werden wahrscheinlich Hybridsysteme sein, die die Stärken beider Ansätze vereinen – Vorhersage, räumliche Immersion und skalierbare Simulation. Das Ziel bleibt dasselbe: eine KI zu schaffen, die nicht nur über die Welt spricht, sondern sie auch versteht.
