Generowanie wideo AI osiąga prędkość w czasie rzeczywistym: laboratorium w Zjednoczonych Emiratach Arabskich dokonało przełomu

5

Instytut Modeli Podstawowych (IFM) na Uniwersytecie Sztucznej Inteligencji Mohammeda bin Zayeda (MBZUAI), we współpracy z Uniwersytetem Kalifornijskim w San Diego, zademonstrował znaczący postęp w generowaniu wideo AI dzięki FastVideo, systemowi zdolnemu wygenerować 30 sekund wideo 1080p w zaledwie pięć sekund. To przełomowe rozwiązanie — szybsze niż prędkość odtwarzania — znacznie przewyższa istniejące wiodące narzędzia wideo AI, w tym Sora OpenAI, którego utworzenie pięciosekundowego wideo zajmuje od jednej do dwóch minut.

Przewaga szybkości: dlaczego to ma znaczenie

Sercem tego osiągnięcia jest możliwy do wyszkolenia mechanizm rzadkiej uwagi, który minimalizuje koszty obliczeniowe rozpowszechniania wideo. Przez wiele lat wysokiej jakości generatywne wideo w czasie rzeczywistym było uważane za niepraktyczne ze względu na wymagania obliczeniowe. FastVideo podważa to założenie, potencjalnie przekształcając kreatywne przepływy pracy, umożliwiając szybką iterację i eksperymentowanie. Zamiast trzymać się jednego kompleksowego zapytania, twórcy mogą teraz niemal natychmiast testować wiele pomysłów.

Poza szybkością: inteligentna kontrola i rozumowanie w czasie rzeczywistym

FastVideo jest połączone z K2 Think firmy MBZUAI, modelem języka rozumowania, który działa jak inteligentny reżyser podczas generowania. Ta kombinacja zapewnia kontrolę w czasie rzeczywistym i rozumowanie wykraczające poza proste wykonanie zapytania. Zespół uruchomił także Dreamverse, prototypowy interfejs kreatywny, który zapewnia „wskazówki dotyczące nastroju” – kontrolując zawartość wideo za pomocą iteracyjnych instrukcji w języku naturalnym. Użytkownicy mogą dostosowywać kąt kamery, kontynuować sceny lub zmieniać tło w czasie rzeczywistym, a wszystko to w pięciosekundowych klipach.

Implikacje dla badań nad modelami świata

Ta poprawa szybkości to nie tylko narzędzie kreatywne; ma to głębokie implikacje dla badań nad modelami świata. Celem tych systemów sztucznej inteligencji jest symulowanie rzeczywistości fizycznej i interakcja z nią, która wcześniej była ograniczona barierami obliczeniowymi. Możliwości generacyjne w czasie rzeczywistym usuwają główną barierę w tworzeniu uogólnionych modeli świata, które mogą symulować scenariusze, wnioskować o przyczynie i skutku oraz testować rozwiązania przed wdrożeniem ich w świecie rzeczywistym.

Otwarte ramy i skalowalność

FastVideo zaprojektowano jako otwartą platformę obsługującą modułowość, skalowalność i dostrajanie nawet na 64 procesorach graficznych. Platforma wnioskowania Dynamo firmy NVIDIA zintegrowała już FastVideo jako obsługiwany backend, co wskazuje na uznanie branży dla jej potencjału. Podstawowy model świata PAN (fizyczny, anielski i zagnieżdżony) stara się przewidywać następny stan świata, a nie po prostu generować treść. To przejście od przewidywania do modelowania otwiera drzwi do tworzenia rzadkich lub ryzykownych scenariuszy, których fizycznie odtworzenie jest niemożliwe lub niebezpieczne.

To osiągnięcie pokazuje, że generowanie wideo w czasie rzeczywistym nie jest już kwestią teoretyczną. To praktyczna rzeczywistość, która prawdopodobnie zmieni branże kreatywne, badania nad sztuczną inteligencją, a być może nawet przyszłość interakcji z symulowanymi środowiskami.