Neueste Nachrichten und Artikel

Der nächste Sprung der KI: Die physische Welt verstehen

21.03.2026

Große Sprachmodelle (LLMs) stoßen an ihre Grenzen. Während sie bei der Verarbeitung von Text hervorragend sind, hat die heutige KI bei realen Anwendungen wie Robotik und autonomem Fahren Probleme, weil ihr ein grundlegendes Verständnis dafür fehlt, wie Dinge funktionieren. Diese Einschränkung führt zu massiven Investitionen in „Weltmodelle“ – KI-Systeme, die Physik und Kausalität simulieren und nicht nur das nächste Wort vorhersagen. Investoren haben bereits über 2 Milliarden US-Dollar in Startups wie AMI Labs und World Labs gesteckt, was einen großen Wandel in der KI-Entwicklung signalisiert.

Das Problem mit reiner Vorhersage

LLMs funktionieren, indem sie das wahrscheinlichste nächste Token (Wort oder Pixel) vorhersagen. Sie ahmen die menschliche Sprache nach, ohne die physischen Konsequenzen ihrer Handlungen wirklich zu verstehen. Turing-Award-Gewinner Richard Sutton warnt davor, dass dieser Ansatz die Fähigkeit der KI einschränkt, aus Erfahrungen zu lernen und sich an Veränderungen anzupassen. Demis Hassabis, CEO von Google DeepMind, nennt dies „gezackte Intelligenz“: KI kann abstrakte Tests bestehen, scheitert aber bei der grundlegenden Physik. Diese Sprödheit bedeutet, dass Modelle bereits bei geringfügigen Eingabeänderungen leicht kaputt gehen.

Das Kernproblem besteht darin, dass die aktuelle KI die Welt nicht modelliert ; es nachahmt, was die Leute darüber sagen. Aus diesem Grund können sich selbst fortschrittliche Vision-Language-Modelle (VLMs) in unvorhersehbaren Umgebungen unregelmäßig verhalten.

Drei Ansätze zum Aufbau von Weltmodellen

Forscher priorisieren nun KI-Systeme, die als interne Simulatoren fungieren und Hypothesen testen, bevor sie Maßnahmen ergreifen. Dies hat zu drei Hauptarchitekturansätzen geführt, von denen jeder einzigartige Stärken und Schwächen aufweist.

JEPA: Effizienz in Echtzeit

Der erste Ansatz, der von AMI Labs unterstützt wird, konzentriert sich auf latente Darstellungen – das Erlernen der Grundregeln der Interaktion, ohne sich jedes Detail zu merken. Basierend auf der Joint Embedding Predictive Architecture (JEPA) ahmt diese Methode die menschliche Wahrnehmung nach: Wir verfolgen Flugbahnen, nicht jedes Blatt im Hintergrund.

JEPA-Modelle verwerfen irrelevante Daten und machen sie dadurch recheneffizient. Dies ist ideal für Robotik, selbstfahrende Autos und andere Echtzeitanwendungen, bei denen Geschwindigkeit entscheidend ist. AMI Labs arbeitet bereits mit Gesundheitsunternehmen zusammen, um die kognitive Belastung in schnelllebigen Umgebungen zu reduzieren. Laut Yann LeCun sind JEPA-basierte Modelle darauf ausgelegt, Ziele kontrollierbar zu erreichen.

Gaussian Splats: Räumliches Eintauchen

World Labs geht einen anderen Weg und erstellt vollständige 3D-Umgebungen aus Eingabeaufforderungen unter Verwendung generativer Modelle und Gaußscher Splats (mathematische Partikel, die Geometrie und Beleuchtung definieren). Dadurch werden die Kosten für die Erstellung interaktiver 3D-Räume drastisch reduziert und das vom World Labs-Gründer Fei-Fei Li identifizierte Problem des „Wordsmith in the Dark“ angegangen.

Diese 3D-Darstellungen sind direkt mit der Physik und 3D-Engines wie der Unreal Engine kompatibel und ermöglichen eine nahtlose Interaktion. Obwohl dieser Ansatz nicht ideal für die Ausführung in Sekundenbruchteilen ist, bietet er ein enormes Potenzial für räumliches Computing, Unterhaltung und Industriedesign. Autodesk investiert stark in diese Technologie, um sie in seine Designanwendungen zu integrieren.

End-to-End-Generierung: Skalierbare Simulation

DeepMinds Genie 3 und Nvidias Cosmos stellen einen dritten Ansatz dar: die Generierung ganzer Szenen, Physik und Reaktionen im laufenden Betrieb. Das Modell ist die Engine, die Eingabeaufforderungen und Aktionen in Echtzeit verarbeitet.

Dies ermöglicht die Generierung umfangreicher synthetischer Daten, sodass Entwickler seltene oder gefährliche Szenarien ohne physische Risiken testen können. Waymo passt Genie 3 an, um seine selbstfahrenden Autos zu trainieren, und Nvidia nutzt Cosmos für die Entwicklung autonomer Fahrzeuge. Der Nachteil ist der hohe Rechenaufwand, aber die Möglichkeit, vollständige physische Interaktionen zu simulieren, ist bahnbrechend.

Die Zukunft: Hybride Architekturen

LLMs werden für Argumentation und Kommunikation weiterhin von entscheidender Bedeutung sein. Weltmodelle werden jedoch zur grundlegenden Infrastruktur für physische und räumliche Datenpipelines. Die nächste Welle werden wahrscheinlich Hybridsysteme sein, die die Stärken beider Ansätze vereinen – Vorhersage, räumliche Immersion und skalierbare Simulation. Das Ziel bleibt dasselbe: eine KI zu schaffen, die nicht nur über die Welt spricht, sondern sie auch versteht.

Der nächste Sprung der KI: Die physische Welt verstehen

Das Problem mit reiner Vorhersage

Drei Ansätze zum Aufbau von Weltmodellen

JEPA: Effizienz in Echtzeit

Gaussian Splats: Räumliches Eintauchen

End-to-End-Generierung: Skalierbare Simulation

Die Zukunft: Hybride Architekturen

Популярні

Zillow entfernt Klimarisikobewertungen aufgrund des Widerstands von Immobilienmaklern

Millionen iPhones der neuen „Darksword“-Spyware ausgesetzt

Roblox вводить перевірку віку для підлітків

ByteDance unterbricht die Einführung des KI-Video-Tools inmitten der Gegenreaktion in Hollywood

Apple verzögert den Start von Smart Home aufgrund von Siri-Entwicklungsproblemen

Сьогоднішні новини NYT: поради та відповіді у спортивному випуску 29 квітня...

Europäische Kommission wird aufgefordert, bei Regulierungsaktualisierungen der Transparenz Vorrang vor der...

Schnelleres Aufladen des iPhone: 10 bewährte Methoden

Tägliche NYT Strands-Lösung: 16. Oktober 2023 (Rätsel Nr. 592)

ВИБІР РЕДАКТОРА

Die Trump-Administration schlägt eine zentralisierte KI-Regulierung vor, die die staatliche Kontrolle...

Kalshi droht in Nevada ein vorübergehendes Verbot angesichts zunehmender rechtlicher Herausforderungen

Scale AI startet Voice Showdown: Ein neuer Maßstab für die Leistung...

ПОПУЛЯРНІ ПОВІДОМЛЕННЯ

H&M investiert in ein Startup, das CO₂ in Bekleidungsmaterial umwandelt

Can Virtual Reality Cultivate Empathy in an Age of Division?

Meta führt den KI-generierten Video-Feed „Vibes“ in Europa ein

ПОПУЛЯРНА КАТЕГОРІЯ