Інститут Фундаментальних Моделів (IFM) при Університеті Мохаммеда бін Заїда з Штучного Інтелекту (MBZUAI), працюючи спільно з UC San Diego, продемонстрував значний стрибок в AI-відеогенерації за допомогою FastVideo, системи, здатної створювати 30 секунд відео. Цей прорив – швидше, ніж швидкість відтворення – значно перевершує існуючі провідні інструменти AI-відео, включаючи Sora від OpenAI, яка потребує однієї-дві хвилини для створення п’ятисекундного ролика.
Перевага в Швидкості: Чому це важливо
В основі цього досягнення лежить розріджений механізм уваги, що навчається, який мінімізує обчислювальні витрати відео-дифузії. Протягом багатьох років високоякісне, генеративне відео в реальному часі вважалося непрактичним через його обчислювальні вимоги. FastVideo спростовує це припущення, потенційно перетворюючи творчі робочі процеси, дозволяючи швидко проводити ітерації та експерименти. Замість того, щоб дотримуватися одного вичерпного запиту, творці тепер можуть миттєво тестувати безліч ідей.
За межами Швидкості: Інтелектуальне Управління та Міркування в Реальному Часі
FastVideo працює в парі з K2 Think від MBZUAI, мовною моделлю міркувань, яка виступає як інтелектуальний режисер під час генерації. Ця комбінація забезпечує контроль та міркування в реальному часі, виходячи за рамки простого виконання запитів. Команда також запустила Dreamverse, прототип творчого інтерфейсу, що забезпечує “напрямок настрою” – управління відеоконтентом за допомогою ітеративних інструкцій природною мовою. Користувачі можуть регулювати кути огляду камери, продовжувати сцени або змінювати фони в реальному часі, і все це у п’ятисекундних роликах.
Наслідки для Досліджень Світової Моделі
Це покращення швидкості – це не просто творчий інструмент; воно має глибокі наслідки для досліджень світової моделі. Ці AI-системи прагнуть моделювати та взаємодіяти з фізичною реальністю, що раніше було обмежено обчислювальними бар’єрами. Генеративні можливості в реальному часі усувають серйозну перешкоду для створення узагальнених світових моделей, здатних моделювати сценарії, розмірковувати про причини та наслідки та тестувати рішення перед їх впровадженням у реальний світ.
Відкритий Фреймворк і Масштабованість
FastVideo розроблений як відкритий фреймворк, що підтримує модульність, масштабованість та тонке налаштування на 64 графічних процесорах. Платформа виведення Dynamo від NVIDIA вже інтегрувала FastVideo як підтримуваний бекенд, що вказує на визнання його потенціалу в галузі. Базова PAN World Model (Фізична, Ангельська та Вкладена) прагне передбачати наступний стан світу, а не просто генерувати контент. Цей перехід від передбачення до моделювання відкриває двері для створення рідкісних чи ризикованих сценаріїв, які неможливо чи небезпечно відтворити фізично.
** Досягнення демонструє, що відеогенерація в реальному часі більше не є теоретичною.

















































