AI Video Generation atinge velocidade em tempo real: Laboratório dos Emirados Árabes Unidos alcança avanço

6

O Instituto de Modelos Básicos (IFM) da Universidade de Inteligência Artificial Mohamed bin Zayed (MBZUAI), trabalhando com a UC San Diego, demonstrou um salto significativo na geração de vídeo de IA com FastVideo, um sistema capaz de criar 30 segundos de vídeo 1080p em apenas cinco segundos. Essa inovação – mais rápida que a velocidade de reprodução – supera drasticamente o desempenho das principais ferramentas de vídeo de IA existentes, incluindo o Sora da OpenAI, que requer de um a dois minutos para produzir um clipe de cinco segundos.

A vantagem da velocidade: por que é importante

O núcleo deste avanço está em um mecanismo de atenção escassa treinável que minimiza o custo computacional da difusão de vídeo. Durante anos, o vídeo generativo de alta qualidade em tempo real foi considerado impraticável devido às suas demandas computacionais. FastVideo desafia essa suposição, potencialmente remodelando os fluxos de trabalho criativos, permitindo rápida iteração e experimentação. Em vez de se comprometerem com solicitações únicas e exaustivas, os criadores agora podem testar inúmeras ideias quase que instantaneamente.

Além da velocidade: controle inteligente e raciocínio em tempo real

FastVideo é combinado com K2 Think da MBZUAI, um modelo de linguagem de raciocínio que atua como um diretor inteligente durante a geração. Essa combinação fornece controle e raciocínio em tempo real, indo além da simples execução imediata. A equipe também lançou o Dreamverse, um protótipo de interface criativa que permite a “direção de vibração” — direcionando o conteúdo de vídeo por meio de instruções iterativas em linguagem natural. Os usuários podem ajustar os ângulos da câmera, continuar cenas ou trocar planos de fundo em tempo real, tudo em clipes de cinco segundos.

Implicações para a pesquisa do modelo mundial

Esta melhoria de velocidade não é apenas uma ferramenta criativa; tem implicações profundas para a pesquisa de modelos mundiais. Estes sistemas de IA visam modelar e interagir com a realidade física, algo anteriormente limitado por barreiras computacionais. A capacidade generativa em tempo real elimina um grande obstáculo à criação de modelos mundiais generalizados, capazes de simular cenários, raciocinar sobre causa e efeito e testar decisões antes da implementação no mundo real.

Estrutura Aberta e Escalabilidade

FastVideo foi projetado como uma estrutura aberta, suportando modularidade, escalabilidade e ajuste fino em até 64 GPUs. A plataforma de inferência Dynamo da NVIDIA já integrou FastVideo como back-end compatível, indicando o reconhecimento do potencial da indústria. O Modelo Mundial PAN subjacente (Físico, Angélico e Aninhado) procura prever o próximo estado do mundo, em vez de simplesmente gerar conteúdo. Esta mudança da previsão para a simulação abre portas para a geração de cenários raros ou de alto risco que seriam impossíveis ou perigosos de recriar fisicamente.

A conquista demonstra que a geração de vídeo em tempo real não é mais teórica. É uma realidade prática que provavelmente remodelará as indústrias criativas, a pesquisa de IA e, potencialmente, até mesmo o futuro de como interagimos com ambientes simulados.