Il laboratorio degli Emirati Arabi Uniti supera la barriera della velocità nella generazione di video AI

18

La generazione di video #AI raggiunge la velocità in tempo reale: UAE Lab raggiunge una svolta

L’Institute of Foundation Models (IFM) dell’Università di Intelligenza Artificiale Mohamed bin Zayed (MBZUAI), in collaborazione con l’UC San Diego, ha dimostrato un significativo passo avanti nella generazione di video AI con FastVideo, un sistema in grado di creare 30 secondi di video 1080p in soli cinque secondi. Questa innovazione, più veloce della velocità di riproduzione, supera notevolmente le prestazioni dei principali strumenti video AI esistenti, incluso Sora di OpenAI, che richiede da uno a due minuti per produrre una clip di cinque secondi.

Il vantaggio della velocità: perché è importante

Il nucleo di questo progresso risiede in un meccanismo di attenzione sparsa addestrabile che riduce al minimo il costo computazionale della diffusione video. Per anni, il video generativo in tempo reale e di alta qualità è stato considerato poco pratico a causa delle sue esigenze computazionali. FastVideo sfida questo presupposto, rimodellando potenzialmente i flussi di lavoro creativi consentendo una rapida iterazione e sperimentazione. Invece di impegnarsi in suggerimenti singoli ed esaustivi, i creatori possono ora testare numerose idee quasi istantaneamente.

Oltre la velocità: controllo intelligente e ragionamento in tempo reale

FastVideo è abbinato a K2 Think di MBZUAI, un modello di linguaggio di ragionamento che funge da regista intelligente durante la generazione. Questa combinazione fornisce controllo e ragionamento in tempo reale, andando oltre la semplice esecuzione tempestiva. Il team ha anche lanciato Dreamverse, un prototipo di interfaccia creativa che consente la “direzione delle vibrazioni”, guidando i contenuti video attraverso istruzioni iterative in linguaggio naturale. Gli utenti possono regolare gli angoli della telecamera, continuare le scene o scambiare gli sfondi in tempo reale, il tutto in clip di cinque secondi.

Implicazioni per la ricerca sul modello mondiale

Questo miglioramento della velocità non è solo uno strumento creativo; ha profonde implicazioni per la ricerca del modello mondiale. Questi sistemi di intelligenza artificiale mirano a modellare e interagire con la realtà fisica, qualcosa precedentemente limitato da barriere computazionali. La capacità generativa in tempo reale rimuove uno dei principali ostacoli alla creazione di modelli mondiali generalizzati in grado di simulare scenari, ragionare su causa ed effetto e testare le decisioni prima dell’implementazione nel mondo reale.

Framework aperto e scalabilità

FastVideo è progettato come un framework aperto, che supporta modularità, scalabilità e messa a punto fino a 64 GPU. La piattaforma di inferenza Dynamo di NVIDIA ha già integrato FastVideo come backend supportato, indicando il riconoscimento del suo potenziale da parte del settore. Il modello mondiale PAN sottostante (fisico, angelico e nidificato) cerca di prevedere il prossimo stato del mondo, piuttosto che semplicemente generare contenuti. Questo passaggio dalla previsione alla simulazione apre le porte alla generazione di scenari rari o ad alto rischio che sarebbe impossibile o pericoloso ricreare fisicamente.

Questo risultato dimostra che la generazione di video in tempo reale non è più una teoria. È una realtà pratica che probabilmente rimodellerà le industrie creative, la ricerca sull’intelligenza artificiale e potenzialmente anche il futuro del modo in cui interagiamo con gli ambienti simulati.