Ultime notizie e articoli

Il prossimo passo dell’intelligenza artificiale: comprendere il mondo fisico

21.03.2026

I modelli linguistici di grandi dimensioni (LLM) stanno colpendo un muro. Anche se eccellono nell’elaborazione del testo, l’intelligenza artificiale di oggi fatica nelle applicazioni del mondo reale come la robotica e la guida autonoma perché manca una comprensione fondamentale di come funzionano le cose. Questa limitazione sta spingendo massicci investimenti nei “modelli del mondo”: sistemi di intelligenza artificiale che simulano la fisica e la causalità, non si limitano a prevedere la parola successiva. Gli investitori hanno già investito oltre 2 miliardi di dollari in startup come AMI Labs e World Labs, segnalando un importante cambiamento nello sviluppo dell’intelligenza artificiale.

Il problema della previsione pura

Gli LLM funzionano prevedendo il token successivo più probabile (parola o pixel). Imitano il linguaggio umano senza comprendere veramente le conseguenze fisiche delle azioni. Il vincitore del Turing Award Richard Sutton avverte che questo approccio limita la capacità dell’intelligenza artificiale di imparare dall’esperienza e di adattarsi ai cambiamenti. Il CEO di Google DeepMind, Demis Hassabis, la chiama “intelligenza frastagliata”: l’intelligenza artificiale può superare i test astratti ma fallisce nella fisica di base. Questa fragilità fa sì che i modelli si rompano facilmente anche con piccole modifiche all’input.

Il problema principale è che l’attuale intelligenza artificiale non modella il mondo; imita ciò che la gente dice a riguardo. Questo è il motivo per cui anche i modelli avanzati del linguaggio visivo (VLM) possono comportarsi in modo irregolare in ambienti imprevedibili.

Tre approcci alla costruzione di modelli mondiali

I ricercatori stanno ora dando priorità ai sistemi di intelligenza artificiale che fungono da simulatori interni, testando le ipotesi prima di agire. Ciò ha portato a tre principali approcci architettonici, ciascuno con punti di forza e di debolezza unici.

JEPA: efficienza in tempo reale

Il primo approccio, sostenuto da AMI Labs, si concentra sulle rappresentazioni latenti : apprendere le regole fondamentali dell’interazione senza memorizzare ogni dettaglio. Basato sulla Joint Embedding Predictive Architecture (JEPA), questo metodo imita la cognizione umana: tracciamo le traiettorie, non ogni foglia sullo sfondo.

I modelli JEPA scartano i dati irrilevanti, rendendoli efficienti dal punto di vista computazionale. Questo è l’ideale per la robotica, le auto a guida autonoma e altre applicazioni in tempo reale in cui la velocità è fondamentale. AMI Labs sta già collaborando con aziende sanitarie per ridurre il carico cognitivo in contesti frenetici. Secondo Yann LeCun, i modelli basati sul JEPA sono progettati per raggiungere gli obiettivi in modo controllabile.

Simboli gaussiani: immersione spaziale

World Labs prende una strada diversa, costruendo ambienti 3D completi da suggerimenti utilizzando modelli generativi e simboli gaussiani (particelle matematiche che definiscono la geometria e l’illuminazione). Ciò riduce drasticamente il costo della creazione di spazi 3D interattivi, affrontando il problema del “parolaio nell’oscurità” identificato dal fondatore di World Labs Fei-Fei Li.

Queste rappresentazioni 3D sono direttamente compatibili con la fisica e i motori 3D come Unreal Engine, consentendo un’interazione senza interruzioni. Sebbene non sia l’ideale per l’esecuzione in frazioni di secondo, questo approccio ha un enorme potenziale per l’elaborazione spaziale, l’intrattenimento e la progettazione industriale. Autodesk investe molto in questa tecnologia per integrarla nelle proprie applicazioni di progettazione.

Generazione end-to-end: simulazione scalabile

Genie 3 di DeepMind e Cosmos di Nvidia rappresentano un terzo approccio: generare intere scene, fisica e reazioni al volo. Il modello è il motore, che elabora richieste e azioni in tempo reale.

Ciò consente una massiccia generazione di dati sintetici, consentendo agli sviluppatori di testare scenari rari o pericolosi senza rischi fisici. Waymo sta adattando Genie 3 per addestrare le sue auto a guida autonoma e Nvidia utilizza Cosmos per lo sviluppo di veicoli autonomi. Lo svantaggio è l’elevato costo computazionale, ma la capacità di simulare interazioni fisiche complete è un punto di svolta.

Il futuro: architetture ibride

Gli LLM rimarranno cruciali per il ragionamento e la comunicazione. Tuttavia, i modelli mondiali stanno diventando l’infrastruttura fondamentale per le pipeline di dati fisici e spaziali. La prossima ondata sarà probabilmente costituita da sistemi ibridi che uniranno i punti di forza di ciascun approccio: previsione, immersione spaziale e simulazione scalabile. L’obiettivo rimane lo stesso: creare un’intelligenza artificiale che non si limiti a parlare del mondo, ma che lo capisca.

Il prossimo passo dell’intelligenza artificiale: comprendere il mondo fisico

Il problema della previsione pura

Tre approcci alla costruzione di modelli mondiali

JEPA: efficienza in tempo reale

Simboli gaussiani: immersione spaziale

Generazione end-to-end: simulazione scalabile

Il futuro: architetture ibride

Популярні

Apple riconsidera i MacBook touchscreen dopo anni di licenziamento

Telefoni pieghevoli nel 2026: un mercato sull’orlo dell’adozione di massa

HUMAIN espande l’infrastruttura AI degli Stati Uniti con una partnership globale...

Laptop Acer Aspire 14 scontato di oltre $ 300 su Amazon

Stagione fiscale per le piccole imprese: una guida per rimanere conformi...

Miami vs. Ole Miss: come guardare la semifinale del Fiesta Bowl...

L’iniziativa Chan Zuckerberg sposta l’attenzione sulla scienza e sull’intelligenza artificiale

Ехо Кембридж Аналітика: Meta заплатить 8 мільярдів доларів у врегулюванні позову...

Offerta VPN Black Friday: Norton VPN ora £ 24,99 all’anno

ВИБІР РЕДАКТОРА

L’amministrazione Trump propone una regolamentazione centralizzata dell’IA, bloccando il controllo statale

Kalshi deve affrontare un divieto temporaneo in Nevada a causa delle...

Scale AI lancia Voice Showdown: un nuovo punto di riferimento per...

ПОПУЛЯРНІ ПОВІДОМЛЕННЯ

H&M investe in una startup che trasforma la CO₂ in materiale...

Can Virtual Reality Cultivate Empathy in an Age of Division?

Meta lancia in Europa il feed video generato dall’intelligenza artificiale, “Vibes”.

ПОПУЛЯРНА КАТЕГОРІЯ