Институт Фундаментальных Моделей (IFM) при Университете Мохаммеда бин Заида по Искусственному Интеллекту (MBZUAI), работая совместно с UC San Diego, продемонстрировал значительный скачок в AI-видеогенерации с помощью FastVideo, системы, способной создавать 30 секунд видео в 1080p всего за пять секунд. Этот прорыв — быстрее, чем скорость воспроизведения — значительно превосходит существующие ведущие инструменты AI-видео, включая Sora от OpenAI, которой требуется одна-две минуты для создания пятисекундного ролика.
Преимущество в Скорости: Почему Это Важно
В основе этого достижения лежит обучаемый разреженный механизм внимания, который минимизирует вычислительные затраты видео-диффузии. На протяжении многих лет высококачественное, генеративное видео в реальном времени считалось непрактичным из-за его вычислительных требований. FastVideo опровергает это предположение, потенциально преобразуя творческие рабочие процессы, позволяя быстро проводить итерации и эксперименты. Вместо того, чтобы придерживаться одного исчерпывающего запроса, создатели теперь могут практически мгновенно тестировать множество идей.
За Пределами Скорости: Интеллектуальное Управление и Рассуждение в Реальном Времени
FastVideo работает в паре с K2 Think от MBZUAI, языковой моделью рассуждений, которая выступает в качестве интеллектуального режиссера во время генерации. Эта комбинация обеспечивает контроль и рассуждения в реальном времени, выходя за рамки простого выполнения запросов. Команда также запустила Dreamverse, прототип творческого интерфейса, обеспечивающего «направление настроения» — управление видеоконтентом посредством итеративных инструкций на естественном языке. Пользователи могут регулировать углы обзора камеры, продолжать сцены или менять фоны в реальном времени, и все это в пятисекундных роликах.
Последствия для Исследований Мировой Модели
Это улучшение скорости — это не просто творческий инструмент; оно имеет глубокие последствия для исследований мировой модели. Эти AI-системы стремятся моделировать и взаимодействовать с физической реальностью, что ранее было ограничено вычислительными барьерами. Генеративные возможности в реальном времени устраняют серьезное препятствие для создания обобщенных мировых моделей, способных моделировать сценарии, рассуждать о причинах и следствиях и тестировать решения перед их внедрением в реальный мир.
Открытый Фреймворк и Масштабируемость
FastVideo разработан как открытый фреймворк, поддерживающий модульность, масштабируемость и тонкую настройку на 64 графических процессорах. Платформа вывода Dynamo от NVIDIA уже интегрировала FastVideo в качестве поддерживаемого бэкенда, что указывает на признание его потенциала в отрасли. Базовая PAN World Model (Физическая, Ангельская и Вложенная) стремится предсказывать следующее состояние мира, а не просто генерировать контент. Этот переход от предсказания к моделированию открывает двери для создания редких или рискованных сценариев, которые невозможно или опасно воссоздать физически.
Достижение демонстрирует, что видеогенерация в реальном времени больше не является теоретической. Это практическая реальность, которая, вероятно, изменит творческие отрасли, исследования в области AI и, возможно, даже будущее того, как мы взаимодействуем с симулированными средами.
