Un laboratoire des Émirats arabes unis brise la barrière de la vitesse dans la génération de vidéos IA

17

La génération de vidéos #IA atteint une vitesse en temps réel : le laboratoire des Émirats arabes unis réalise une percée

L’Institut des modèles de fondation (IFM) de l’Université d’intelligence artificielle Mohamed bin Zayed (MBZUAI), en collaboration avec l’UC San Diego, a démontré un bond en avant significatif dans la génération de vidéos IA avec FastVideo, un système capable de créer 30 secondes de vidéo 1080p en seulement cinq secondes. Cette avancée, plus rapide que la vitesse de lecture, surpasse considérablement les principaux outils vidéo d’IA existants, notamment Sora d’OpenAI, qui nécessite une à deux minutes pour produire un clip de cinq secondes.

L’avantage de la vitesse : pourquoi c’est important

Le cœur de cette avancée réside dans un mécanisme d’attention clairsemée pouvant être entraîné qui minimise le coût de calcul de la diffusion vidéo. Pendant des années, la vidéo générative de haute qualité en temps réel a été considérée comme peu pratique en raison de ses exigences informatiques. FastVideo remet en question cette hypothèse, en remodelant potentiellement les flux de travail créatifs en permettant une itération et une expérimentation rapides. Au lieu de s’engager dans des invites uniques et exhaustives, les créateurs peuvent désormais tester de nombreuses idées presque instantanément.

Au-delà de la vitesse : contrôle intelligent et raisonnement en temps réel

FastVideo est associé à K2 Think de MBZUAI, un modèle de langage de raisonnement qui agit comme un directeur intelligent pendant la génération. Cette combinaison permet un contrôle et un raisonnement en temps réel, allant au-delà de la simple exécution rapide. L’équipe a également lancé Dreamverse, un prototype d’interface créative permettant la « direction d’ambiance », c’est-à-dire le pilotage du contenu vidéo via des instructions itératives en langage naturel. Les utilisateurs peuvent ajuster les angles de caméra, continuer les scènes ou échanger les arrière-plans en temps réel, le tout dans des clips de cinq secondes.

Implications pour la recherche sur les modèles mondiaux

Cette amélioration de la vitesse n’est pas seulement un outil créatif ; cela a de profondes implications pour la recherche sur les modèles mondiaux. Ces systèmes d’IA visent à modéliser et à interagir avec la réalité physique, ce qui était auparavant limité par des barrières informatiques. La capacité de génération en temps réel élimine un obstacle majeur à la création de modèles mondiaux généralisés capables de simuler des scénarios, de raisonner sur les causes et les effets et de tester les décisions avant leur mise en œuvre dans le monde réel.

Framework ouvert et évolutivité

FastVideo est conçu comme un framework ouvert, prenant en charge la modularité, l’évolutivité et le réglage fin sur jusqu’à 64 GPU. La plate-forme d’inférence Dynamo de NVIDIA a déjà intégré FastVideo en tant que backend pris en charge, ce qui indique que l’industrie reconnaît son potentiel. Le modèle mondial PAN sous-jacent (physique, angélique et imbriqué) cherche à prédire le prochain état du monde, plutôt que de simplement générer du contenu. Ce passage de la prédiction à la simulation ouvre la porte à la génération de scénarios rares ou à enjeux élevés qu’il serait impossible ou dangereux de recréer physiquement.

Cet exploit démontre que la génération de vidéos en temps réel n’est plus théorique. Il s’agit d’une réalité pratique qui va probablement remodeler les industries créatives, la recherche en IA et potentiellement même l’avenir de la façon dont nous interagissons avec les environnements simulés.