Generování AI videa dosahuje rychlosti v reálném čase: Laboratoř ve Spojených arabských emirátech udělala průlom

16

Institut základních modelů (IFM) na Univerzitě Mohammeda bin Zayeda pro umělou inteligenci (MBZUAI), spolupracující s UC San Diego, prokázal významný skok v generování AI videa pomocí FastVideo, systému schopného generovat 30 sekund 1080p videa za pouhých pět sekund. Tento průlom – rychlejší než rychlost přehrávání – výrazně překonává stávající přední nástroje pro tvorbu videa AI, včetně OpenAI Sora, kterému vytvoření pětisekundového videa trvá jednu až dvě minuty.

Výhoda rychlosti: Proč na tom záleží

Základem tohoto úspěchu je trénovatelný mechanismus řídké pozornosti, který minimalizuje výpočetní náklady na šíření videa. Po mnoho let bylo vysoce kvalitní, generativní video v reálném čase považováno za nepraktické kvůli jeho výpočetním nárokům. FastVideo tento předpoklad zpochybňuje a potenciálně transformuje kreativní pracovní postupy tím, že umožňuje rychlé opakování a experimentování. Namísto toho, aby se tvůrci drželi jednoho komplexního dotazu, mohou nyní téměř okamžitě testovat více nápadů.

Beyond Speed: Inteligentní řízení a uvažování v reálném čase

FastVideo je spárováno s MBZUAI K2 Think, modelem uvažovacího jazyka, který během generování funguje jako inteligentní režisér. Tato kombinace poskytuje kontrolu a uvažování v reálném čase nad rámec jednoduchého provádění dotazu. Tým také spustil Dreamverse, prototyp kreativního rozhraní, které poskytuje „náladu“ – ovládání video obsahu pomocí iterativních instrukcí v přirozeném jazyce. Uživatelé mohou upravit úhly kamery, pokračovat ve scénách nebo změnit pozadí v reálném čase, to vše v pětisekundových klipech.

Důsledky pro světový modelový výzkum

Toto zvýšení rychlosti není jen kreativní nástroj; má hluboké důsledky pro výzkum světových modelů. Tyto systémy umělé inteligence mají za cíl simulovat a interagovat s fyzickou realitou, která byla dříve omezena výpočetními bariérami. Generativní schopnosti v reálném čase odstraňují hlavní překážku vytváření zobecněných světových modelů, které mohou simulovat scénáře, zdůvodňovat příčinu a následek a testovat řešení před jejich implementací v reálném světě.

Otevřený rámec a škálovatelnost

FastVideo je navrženo jako otevřený rámec, který podporuje modularitu, škálovatelnost a jemné ladění až na 64 GPU. Inferenční platforma NVIDIA Dynamo již integrovala FastVideo jako podporovaný backend, což naznačuje, že průmysl uznává její potenciál. Základní model světa PAN (fyzický, andělský a vnořený) se snaží předpovídat příští stav světa spíše než jednoduše vytvářet obsah. Tento posun od predikce k modelování otevírá dveře k vytváření vzácných nebo riskantních scénářů, které je nemožné nebo nebezpečné fyzicky znovu vytvořit.

Tento úspěch ukazuje, že generování videa v reálném čase již není teoretické. Jde o praktickou realitu, která pravděpodobně změní kreativní průmysl, výzkum AI a možná i budoucnost toho, jak interagujeme se simulovanými prostředími.