Lompatan AI Berikutnya: Memahami Dunia Fisik

12

Model bahasa besar (LLM) mengalami hambatan. Meskipun mereka unggul dalam pemrosesan teks, AI saat ini kesulitan dalam aplikasi dunia nyata seperti robotika dan mengemudi otonom karena kurangnya pemahaman mendasar tentang cara kerja. Keterbatasan ini mendorong investasi besar-besaran pada “model dunia”—sistem AI yang menyimulasikan fisika dan kausalitas, bukan sekadar memprediksi kata berikutnya. Investor telah menggelontorkan lebih dari $2 miliar untuk startup seperti AMI Labs dan World Labs, yang menandakan perubahan besar dalam pengembangan AI.

Masalah dengan Prediksi Murni

LLM beroperasi dengan memprediksi token berikutnya (kata atau piksel) yang paling mungkin terjadi. Mereka meniru bahasa manusia tanpa benar-benar memahami konsekuensi fisik dari tindakannya. Pemenang Turing Award Richard Sutton memperingatkan bahwa pendekatan ini membatasi kemampuan AI untuk belajar dari pengalaman dan beradaptasi terhadap perubahan. CEO Google DeepMind Demis Hassabis menyebut hal ini sebagai “kecerdasan bergerigi”: AI dapat unggul dalam tes abstrak tetapi gagal dalam fisika dasar. Kerapuhan ini berarti model mudah rusak bahkan dengan sedikit perubahan masukan.

Masalah intinya adalah AI saat ini tidak memodelkan dunia; itu meniru apa yang orang katakan tentangnya. Inilah sebabnya mengapa model bahasa visi (VLM) tingkat lanjut pun dapat berperilaku tidak menentu di lingkungan yang tidak dapat diprediksi.

Tiga Pendekatan untuk Membangun Model Dunia

Para peneliti kini memprioritaskan sistem AI yang bertindak sebagai simulator internal, menguji hipotesis sebelum mengambil tindakan. Hal ini menghasilkan tiga pendekatan arsitektur utama, masing-masing dengan kekuatan dan kelemahan unik.

JEPA: Efisiensi Waktu Nyata

Pendekatan pertama, yang diperjuangkan oleh AMI Labs, berfokus pada representasi laten —mempelajari aturan inti interaksi tanpa menghafal setiap detailnya. Berdasarkan Joint Embedding Predictive Architecture (JEPA), metode ini meniru kognisi manusia: kami melacak lintasan, tidak setiap daun di latar belakang.

Model JEPA membuang data yang tidak relevan, menjadikannya efisien secara komputasi. Ini ideal untuk robotika, mobil tanpa pengemudi, dan aplikasi real-time lainnya yang mengutamakan kecepatan. AMI Labs telah bermitra dengan perusahaan layanan kesehatan untuk mengurangi beban kognitif dalam situasi yang serba cepat. Menurut Yann LeCun, model berbasis JEPA dirancang untuk mencapai tujuan secara terkendali.

Gaussian Splats: Perendaman Spasial

World Labs mengambil rute yang berbeda, membangun lingkungan 3D lengkap dari perintah menggunakan model generatif dan Gaussian splats (partikel matematika yang menentukan geometri dan pencahayaan). Hal ini secara drastis mengurangi biaya pembuatan ruang 3D interaktif, mengatasi masalah “pembuat kata dalam kegelapan” yang diidentifikasi oleh pendiri World Labs, Fei-Fei Li.

Representasi 3D ini secara langsung kompatibel dengan fisika dan mesin 3D seperti Unreal Engine, sehingga memungkinkan interaksi yang lancar. Meskipun tidak ideal untuk eksekusi dalam hitungan detik, pendekatan ini memiliki potensi besar untuk komputasi spasial, hiburan, dan desain industri. Autodesk banyak berinvestasi dalam teknologi ini untuk mengintegrasikannya ke dalam aplikasi desain mereka.

Generasi End-to-End: Simulasi yang Dapat Diskalakan

Genie 3 dari DeepMind dan Cosmos dari Nvidia mewakili pendekatan ketiga: menghasilkan seluruh adegan, fisika, dan reaksi dengan cepat. Model adalah mesin, yang memproses perintah dan tindakan secara real-time.

Hal ini memungkinkan pembuatan data sintetis secara besar-besaran, memungkinkan pengembang menguji skenario langka atau berbahaya tanpa risiko fisik. Waymo mengadaptasi Genie 3 untuk melatih mobil self-driving, dan Nvidia menggunakan Cosmos untuk pengembangan kendaraan otonom. Kelemahannya adalah biaya komputasi yang tinggi, namun kemampuan untuk mensimulasikan interaksi fisik yang lengkap adalah sebuah terobosan.

Masa Depan: Arsitektur Hibrid

LLM akan tetap penting untuk penalaran dan komunikasi. Namun, model dunia menjadi infrastruktur dasar untuk jalur data fisik dan spasial. Gelombang berikutnya kemungkinan besar adalah sistem hibrida yang menggabungkan kekuatan masing-masing pendekatan—prediksi, pendalaman spasial, dan simulasi yang dapat diskalakan. Tujuannya tetap sama: menciptakan AI yang tidak hanya berbicara tentang dunia, namun memahaminya.