Pembuatan Video AI Mencapai Kecepatan Real-Time: Lab UEA Mencapai Terobosan

4

Institute of Foundation Models (IFM) di Mohamed bin Zayed University of Artificial Intelligence (MBZUAI), bekerja sama dengan UC San Diego, telah menunjukkan lompatan maju yang signifikan dalam pembuatan video AI dengan FastVideo, sebuah sistem yang mampu membuat video 1080p berdurasi 30 detik hanya dalam lima detik. Terobosan ini—lebih cepat dari kecepatan pemutaran—secara signifikan mengungguli alat video AI terkemuka yang sudah ada, termasuk Sora dari OpenAI, yang memerlukan satu hingga dua menit untuk menghasilkan klip berdurasi lima detik.

Keunggulan Kecepatan: Mengapa Itu Penting

Inti dari kemajuan ini terletak pada mekanisme perhatian renggang yang dapat dilatih dan meminimalkan biaya komputasi penyebaran video. Selama bertahun-tahun, video generatif real-time berkualitas tinggi dianggap tidak praktis karena tuntutan komputasinya. FastVideo menantang asumsi ini, berpotensi membentuk kembali alur kerja kreatif dengan memungkinkan terjadinya iterasi dan eksperimen cepat. Daripada hanya melakukan satu perintah yang menyeluruh, pembuat konten kini dapat menguji banyak ide secara instan.

Melampaui Kecepatan: Kontrol Cerdas dan Penalaran Waktu Nyata

FastVideo dipasangkan dengan K2 Think MBZUAI, model bahasa penalaran yang bertindak sebagai sutradara cerdas selama pembuatan. Kombinasi ini memberikan kontrol dan penalaran real-time, lebih dari sekadar eksekusi cepat yang sederhana. Tim juga telah meluncurkan Dreamverse, sebuah prototipe antarmuka kreatif yang memungkinkan “pengarahan getaran”—mengarahkan konten video melalui instruksi bahasa alami yang berulang. Pengguna dapat menyesuaikan sudut kamera, melanjutkan adegan, atau menukar latar belakang secara real-time, semuanya dalam klip berdurasi lima detik.

Implikasi terhadap Penelitian Model Dunia

Peningkatan kecepatan ini bukan sekadar alat kreatif; hal ini memiliki implikasi besar terhadap penelitian model dunia. Sistem AI ini bertujuan untuk memodelkan dan berinteraksi dengan realitas fisik, sesuatu yang sebelumnya dibatasi oleh hambatan komputasi. Kemampuan generatif real-time menghilangkan hambatan besar dalam menciptakan model dunia umum yang mampu mensimulasikan skenario, mempertimbangkan sebab dan akibat, dan menguji keputusan sebelum implementasi di dunia nyata.

Kerangka Terbuka dan Skalabilitas

FastVideo dirancang sebagai kerangka kerja terbuka, mendukung modularitas, skalabilitas, dan penyesuaian hingga 64 GPU. Platform inferensi Dynamo NVIDIA telah mengintegrasikan FastVideo sebagai backend yang didukung, yang menunjukkan pengakuan industri atas potensinya. Model Dunia PAN yang mendasari (Fisik, Malaikat, dan Bersarang) berupaya memprediksi keadaan dunia selanjutnya, bukan sekadar menghasilkan konten. Peralihan dari prediksi ke simulasi ini membuka pintu untuk menghasilkan skenario langka atau berisiko tinggi yang tidak mungkin atau berbahaya untuk dibuat ulang secara fisik.

Pencapaian ini menunjukkan bahwa pembuatan video real-time tidak lagi bersifat teoretis. Ini adalah kenyataan praktis yang kemungkinan besar akan membentuk kembali industri kreatif, penelitian AI, dan bahkan mungkin masa depan cara kita berinteraksi dengan lingkungan simulasi.