I modelli linguistici di grandi dimensioni (LLM) stanno colpendo un muro. Anche se eccellono nell’elaborazione del testo, l’intelligenza artificiale di oggi fatica nelle applicazioni del mondo reale come la robotica e la guida autonoma perché manca una comprensione fondamentale di come funzionano le cose. Questa limitazione sta spingendo massicci investimenti nei “modelli del mondo”: sistemi di intelligenza artificiale che simulano la fisica e la causalità, non si limitano a prevedere la parola successiva. Gli investitori hanno già investito oltre 2 miliardi di dollari in startup come AMI Labs e World Labs, segnalando un importante cambiamento nello sviluppo dell’intelligenza artificiale.
Il problema della previsione pura
Gli LLM funzionano prevedendo il token successivo più probabile (parola o pixel). Imitano il linguaggio umano senza comprendere veramente le conseguenze fisiche delle azioni. Il vincitore del Turing Award Richard Sutton avverte che questo approccio limita la capacità dell’intelligenza artificiale di imparare dall’esperienza e di adattarsi ai cambiamenti. Il CEO di Google DeepMind, Demis Hassabis, la chiama “intelligenza frastagliata”: l’intelligenza artificiale può superare i test astratti ma fallisce nella fisica di base. Questa fragilità fa sì che i modelli si rompano facilmente anche con piccole modifiche all’input.
Il problema principale è che l’attuale intelligenza artificiale non modella il mondo; imita ciò che la gente dice a riguardo. Questo è il motivo per cui anche i modelli avanzati del linguaggio visivo (VLM) possono comportarsi in modo irregolare in ambienti imprevedibili.
Tre approcci alla costruzione di modelli mondiali
I ricercatori stanno ora dando priorità ai sistemi di intelligenza artificiale che fungono da simulatori interni, testando le ipotesi prima di agire. Ciò ha portato a tre principali approcci architettonici, ciascuno con punti di forza e di debolezza unici.
JEPA: efficienza in tempo reale
Il primo approccio, sostenuto da AMI Labs, si concentra sulle rappresentazioni latenti : apprendere le regole fondamentali dell’interazione senza memorizzare ogni dettaglio. Basato sulla Joint Embedding Predictive Architecture (JEPA), questo metodo imita la cognizione umana: tracciamo le traiettorie, non ogni foglia sullo sfondo.
I modelli JEPA scartano i dati irrilevanti, rendendoli efficienti dal punto di vista computazionale. Questo è l’ideale per la robotica, le auto a guida autonoma e altre applicazioni in tempo reale in cui la velocità è fondamentale. AMI Labs sta già collaborando con aziende sanitarie per ridurre il carico cognitivo in contesti frenetici. Secondo Yann LeCun, i modelli basati sul JEPA sono progettati per raggiungere gli obiettivi in modo controllabile.
Simboli gaussiani: immersione spaziale
World Labs prende una strada diversa, costruendo ambienti 3D completi da suggerimenti utilizzando modelli generativi e simboli gaussiani (particelle matematiche che definiscono la geometria e l’illuminazione). Ciò riduce drasticamente il costo della creazione di spazi 3D interattivi, affrontando il problema del “parolaio nell’oscurità” identificato dal fondatore di World Labs Fei-Fei Li.
Queste rappresentazioni 3D sono direttamente compatibili con la fisica e i motori 3D come Unreal Engine, consentendo un’interazione senza interruzioni. Sebbene non sia l’ideale per l’esecuzione in frazioni di secondo, questo approccio ha un enorme potenziale per l’elaborazione spaziale, l’intrattenimento e la progettazione industriale. Autodesk investe molto in questa tecnologia per integrarla nelle proprie applicazioni di progettazione.
Generazione end-to-end: simulazione scalabile
Genie 3 di DeepMind e Cosmos di Nvidia rappresentano un terzo approccio: generare intere scene, fisica e reazioni al volo. Il modello è il motore, che elabora richieste e azioni in tempo reale.
Ciò consente una massiccia generazione di dati sintetici, consentendo agli sviluppatori di testare scenari rari o pericolosi senza rischi fisici. Waymo sta adattando Genie 3 per addestrare le sue auto a guida autonoma e Nvidia utilizza Cosmos per lo sviluppo di veicoli autonomi. Lo svantaggio è l’elevato costo computazionale, ma la capacità di simulare interazioni fisiche complete è un punto di svolta.
Il futuro: architetture ibride
Gli LLM rimarranno cruciali per il ragionamento e la comunicazione. Tuttavia, i modelli mondiali stanno diventando l’infrastruttura fondamentale per le pipeline di dati fisici e spaziali. La prossima ondata sarà probabilmente costituita da sistemi ibridi che uniranno i punti di forza di ciascun approccio: previsione, immersione spaziale e simulazione scalabile. L’obiettivo rimane lo stesso: creare un’intelligenza artificiale che non si limiti a parlare del mondo, ma che lo capisca.
