Un laboratorio de los Emiratos Árabes Unidos rompe la barrera de la velocidad en la generación de vídeos con IA

11

La generación de vídeo con IA alcanza velocidad en tiempo real: el laboratorio de los EAU logra un gran avance

El Instituto de Modelos Fundamentales (IFM) de la Universidad de Inteligencia Artificial Mohamed bin Zayed (MBZUAI), en colaboración con UC San Diego, ha demostrado un importante avance en la generación de vídeo mediante IA con FastVideo, un sistema capaz de crear 30 segundos de vídeo de 1080p en sólo cinco segundos. Este avance, más rápido que la velocidad de reproducción, supera drásticamente a las principales herramientas de video de IA existentes, incluido Sora de OpenAI, que requiere de uno a dos minutos para producir un clip de cinco segundos.

La ventaja de la velocidad: por qué es importante

El núcleo de este avance radica en un mecanismo de atención dispersa entrenable que minimiza el costo computacional de la difusión de video. Durante años, el vídeo generativo de alta calidad en tiempo real se consideró poco práctico debido a sus exigencias computacionales. FastVideo desafía esta suposición y potencialmente remodela los flujos de trabajo creativos al permitir una rápida iteración y experimentación. En lugar de comprometerse con indicaciones únicas y exhaustivas, los creadores ahora pueden probar numerosas ideas casi al instante.

Más allá de la velocidad: control inteligente y razonamiento en tiempo real

FastVideo se combina con K2 Think de MBZUAI, un modelo de lenguaje de razonamiento que actúa como un director inteligente durante la generación. Esta combinación proporciona control y razonamiento en tiempo real, yendo más allá de una simple ejecución rápida. El equipo también lanzó Dreamverse, un prototipo de interfaz creativa que permite la “dirección de vibraciones”: dirigir el contenido de vídeo a través de instrucciones iterativas en lenguaje natural. Los usuarios pueden ajustar los ángulos de la cámara, continuar escenas o intercambiar fondos en tiempo real, todo en clips de cinco segundos.

Implicaciones para la investigación del modelo mundial

Esta mejora de la velocidad no es sólo una herramienta creativa; tiene profundas implicaciones para la investigación del modelo mundial. Estos sistemas de IA tienen como objetivo modelar e interactuar con la realidad física, algo que antes estaba limitado por barreras computacionales. La capacidad generativa en tiempo real elimina un obstáculo importante para la creación de modelos mundiales generalizados capaces de simular escenarios, razonar sobre causa y efecto y probar decisiones antes de la implementación en el mundo real.

Marco abierto y escalabilidad

FastVideo está diseñado como un marco abierto que admite modularidad, escalabilidad y ajuste fino en hasta 64 GPU. La plataforma de inferencia Dynamo de NVIDIA ya ha integrado FastVideo como backend compatible, lo que indica el reconocimiento de su potencial por parte de la industria. El modelo mundial PAN subyacente (físico, angelical y anidado) busca predecir el próximo estado del mundo, en lugar de simplemente generar contenido. Este cambio de la predicción a la simulación abre las puertas a la generación de escenarios raros o de alto riesgo que serían imposibles o peligrosos de recrear físicamente.

El logro demuestra que la generación de vídeo en tiempo real ya no es teórica. Es una realidad práctica que probablemente remodelará las industrias creativas, la investigación de la IA y, potencialmente, incluso el futuro de cómo interactuamos con entornos simulados.