Les grands modèles de langage (LLM) se heurtent à un mur. Bien qu’elles excellent dans le traitement du texte, l’IA d’aujourd’hui a du mal dans les applications du monde réel comme la robotique et la conduite autonome, car elle manque d’une compréhension fondamentale du comment les choses fonctionnent. Cette limitation conduit à des investissements massifs dans des « modèles du monde » – des systèmes d’IA qui simulent la physique et la causalité, et ne se contentent pas de prédire le mot suivant. Les investisseurs ont déjà investi plus de 2 milliards de dollars dans des startups comme AMI Labs et World Labs, signalant un changement majeur dans le développement de l’IA.
Le problème de la prédiction pure
Les LLM fonctionnent en prédisant le prochain jeton le plus probable (mot ou pixel). Ils imitent le langage humain sans vraiment comprendre les conséquences physiques de leurs actions. Richard Sutton, lauréat du prix Turing, prévient que cette approche limite la capacité de l’IA à apprendre de l’expérience et à s’adapter aux changements. Demis Hassabis, PDG de Google DeepMind, appelle cela « l’intelligence irrégulière » : l’IA peut réussir des tests abstraits mais échoue dans les tests de physique de base. Cette fragilité signifie que les modèles se cassent facilement même avec des changements d’entrée mineurs.
Le problème principal est que l’IA actuelle ne modélise pas le monde ; cela imite ce que les gens en disent. C’est pourquoi même les modèles de langage de vision (VLM) avancés peuvent se comporter de manière erratique dans des environnements imprévisibles.
Trois approches pour construire des modèles mondiaux
Les chercheurs donnent désormais la priorité aux systèmes d’IA qui agissent comme des simulateurs internes, testant des hypothèses avant d’agir. Cela a conduit à trois approches architecturales principales, chacune présentant des forces et des faiblesses uniques.
JEPA : Efficacité en temps réel
La première approche, défendue par AMI Labs, se concentre sur les représentations latentes : apprendre les règles fondamentales de l’interaction sans mémoriser chaque détail. Basée sur la Joint Embedding Predictive Architecture (JEPA), cette méthode imite la cognition humaine : nous suivons les trajectoires, et non chaque feuille en arrière-plan.
Les modèles JEPA éliminent les données non pertinentes, ce qui les rend efficaces sur le plan informatique. C’est idéal pour la robotique, les voitures autonomes et d’autres applications en temps réel où la vitesse est essentielle. AMI Labs s’associe déjà à des entreprises de soins de santé pour réduire la charge cognitive dans des environnements en évolution rapide. Selon Yann LeCun, les modèles basés sur JEPA sont conçus pour atteindre les objectifs de manière contrôlable.
Splats gaussiens : immersion spatiale
World Labs emprunte une voie différente, en créant des environnements 3D complets à partir d’invites utilisant des modèles génératifs et des splats gaussiens (particules mathématiques qui définissent la géométrie et l’éclairage). Cela réduit considérablement le coût de création d’espaces 3D interactifs, résolvant ainsi le problème de la « création de mots dans le noir » identifié par le fondateur de World Labs, Fei-Fei Li.
Ces représentations 3D sont directement compatibles avec la physique et les moteurs 3D comme Unreal Engine, permettant une interaction transparente. Bien qu’elle ne soit pas idéale pour une exécution en une fraction de seconde, cette approche présente un énorme potentiel pour l’informatique spatiale, le divertissement et le design industriel. Autodesk investit massivement dans cette technologie pour l’intégrer dans ses applications de conception.
Génération de bout en bout : simulation évolutive
Genie 3 de DeepMind et Cosmos de Nvidia représentent une troisième approche : générer des scènes entières, de la physique et des réactions à la volée. Le modèle est le moteur, traitant les invites et les actions en temps réel.
Cela permet une génération massive de données synthétiques, permettant aux développeurs de tester des scénarios rares ou dangereux sans risques physiques. Waymo adapte Genie 3 pour entraîner ses voitures autonomes, et Nvidia utilise Cosmos pour le développement de véhicules autonomes. L’inconvénient est le coût de calcul élevé, mais la capacité de simuler des interactions physiques complètes change la donne.
L’avenir : les architectures hybrides
Les LLM resteront cruciaux pour le raisonnement et la communication. Cependant, les modèles mondiaux deviennent l’infrastructure fondamentale des pipelines de données physiques et spatiales. La prochaine vague sera probablement constituée de systèmes hybrides combinant les atouts de chaque approche : prédiction, immersion spatiale et simulation évolutive. L’objectif reste le même : créer une IA qui ne se contente pas de parler du monde, mais qui le comprend.
