AI’s volgende sprong: de fysieke wereld begrijpen

6

Grote taalmodellen (LLM’s) lopen tegen een muur aan. Hoewel ze uitblinken in het verwerken van tekst, heeft de huidige AI moeite met toepassingen in de echte wereld, zoals robotica en autonoom rijden, omdat het een fundamenteel begrip mist van hoe dingen werken. Deze beperking zorgt voor enorme investeringen in ‘wereldmodellen’ – AI-systemen die natuurkunde en causaliteit simuleren, en niet alleen het volgende woord voorspellen. Investeerders hebben al meer dan $2 miljard in startups als AMI Labs en World Labs gestort, wat een signaal is van een grote verschuiving in de AI-ontwikkeling.

Het probleem met pure voorspelling

LLM’s werken door het meest waarschijnlijke volgende token (woord of pixel) te voorspellen. Ze bootsen de menselijke taal na zonder de fysieke gevolgen van acties echt te begrijpen. Turing Award-winnaar Richard Sutton waarschuwt dat deze aanpak het vermogen van AI beperkt om van ervaringen te leren en zich aan te passen aan veranderingen. De CEO van Google DeepMind, Demis Hassabis, noemt dit ‘grillige intelligentie’: AI kan abstracte tests doorstaan, maar faalt in de basisfysica. Deze broosheid betekent dat modellen gemakkelijk kapot gaan, zelfs met kleine invoerwijzigingen.

Het kernprobleem is dat de huidige AI de wereld niet modelleert ; het bootst na wat mensen erover zeggen. Dit is de reden waarom zelfs geavanceerde vision-taalmodellen (VLM’s) zich grillig kunnen gedragen in onvoorspelbare omgevingen.

Drie benaderingen voor het bouwen van wereldmodellen

Onderzoekers geven nu prioriteit aan AI-systemen die fungeren als interne simulatoren en hypothesen testen voordat ze actie ondernemen. Dit heeft geleid tot drie belangrijke architecturale benaderingen, elk met unieke sterke en zwakke punten.

JEPA: realtime efficiëntie

De eerste benadering, verdedigd door AMI Labs, richt zich op latente representaties : het leren van de kernregels van interactie zonder elk detail te onthouden. Deze methode is gebaseerd op de Joint Embedding Predictive Architecture (JEPA) en bootst de menselijke cognitie na: we volgen trajecten, niet elk blad op de achtergrond.

JEPA-modellen negeren irrelevante gegevens, waardoor ze computationeel efficiënt worden. Dit is ideaal voor robotica, zelfrijdende auto’s en andere realtime toepassingen waarbij snelheid van cruciaal belang is. AMI Labs werkt al samen met bedrijven in de gezondheidszorg om de cognitieve belasting in snelle omgevingen te verminderen. Volgens Yann LeCun zijn op JEPA gebaseerde modellen ontworpen om doelen controleerbaar te bereiken.

Gaussiaanse markeringen: ruimtelijke onderdompeling

World Labs kiest een andere route en bouwt complete 3D-omgevingen op basis van aanwijzingen met behulp van generatieve modellen en Gaussiaanse splats (wiskundige deeltjes die geometrie en verlichting definiëren). Dit verlaagt drastisch de kosten van het creëren van interactieve 3D-ruimtes, waarmee het ‘wordsmith in the dark’-probleem wordt aangepakt dat werd geïdentificeerd door de oprichter van World Labs, Fei-Fei Li.

Deze 3D-representaties zijn direct compatibel met fysica en 3D-engines zoals Unreal Engine, waardoor naadloze interactie mogelijk is. Hoewel niet ideaal voor uitvoering in een fractie van een seconde, heeft deze aanpak een enorm potentieel voor ruimtelijk computergebruik, entertainment en industrieel ontwerp. Autodesk heeft zwaar geïnvesteerd in deze technologie om deze te integreren in hun ontwerptoepassingen.

End-to-end generatie: schaalbare simulatie

DeepMind’s Genie 3 en Nvidia’s Cosmos vertegenwoordigen een derde benadering: het on-the-fly genereren van volledige scènes, fysica en reacties. Het model is de engine, die aanwijzingen en acties in realtime verwerkt.

Dit maakt het genereren van enorme synthetische gegevens mogelijk, waardoor ontwikkelaars zeldzame of gevaarlijke scenario’s kunnen testen zonder fysieke risico’s. Waymo past Genie 3 aan om zijn zelfrijdende auto’s te trainen, en Nvidia gebruikt Cosmos voor de ontwikkeling van autonome voertuigen. Het nadeel zijn de hoge rekenkosten, maar de mogelijkheid om volledige fysieke interacties te simuleren is een game-changer.

De toekomst: hybride architecturen

LLM’s zullen cruciaal blijven voor redeneren en communiceren. Wereldmodellen worden echter de fundamentele infrastructuur voor fysieke en ruimtelijke datapijplijnen. De volgende golf zullen waarschijnlijk hybride systemen zijn die de sterke punten van elke aanpak combineren: voorspelling, ruimtelijke onderdompeling en schaalbare simulatie. Het doel blijft hetzelfde: AI creëren die niet alleen over de wereld spreekt, maar deze begrijpt*.