Další skok AI: Pochopení fyzického světa

3

** Modely velkých jazyků (LLM) narážejí na strop. Zatímco vynikají ve zpracování textu, moderní umělá inteligence se potýká s úkoly v reálném světě, jako je robotika a autonomní řízení, protože postrádá základní pochopení toho, jak věci fungují. Toto omezení vede k obrovským investicím do „modelů světa“ – systémů umělé inteligence, které spíše simulují fyziku a vztahy příčiny a následku, než aby jednoduše předpovídaly další slovo. Investoři již nalili více než 2 miliardy dolarů do startupů, jako jsou AMI Labs a World Labs, což signalizuje velký posun ve vývoji AI.

Problém čisté předpovědi

LLM fungují tak, že předpovídají nejpravděpodobnější další token (slovo nebo pixel). Napodobují lidský jazyk, aniž by chápali skutečné fyzické důsledky svých činů. Vítěz Turingovy ceny Richard Sutton varuje, že tento přístup omezuje schopnost umělé inteligence učit se ze zkušeností a přizpůsobovat se změnám. Generální ředitel Google DeepMind Demis Hassabis tomu říká „křehká inteligence“: AI může vynikat v abstraktních testech, ale selhává v základní fyzice. Tato křehkost znamená, že se modely snadno rozbijí i při malých změnách vstupních dat.

Hlavním problémem je, že současná umělá inteligence nemodeluje svět; napodobuje to, co o něm lidé říkají. To je důvod, proč se i pokročilé modely vizuálního jazyka (VLM) mohou chovat nepředvídatelně v nepředvídatelných prostředích.

Tři přístupy k vytváření světových modelů

Výzkumníci nyní upřednostňují systémy umělé inteligence, které fungují jako interní simulátory a testují hypotézy, než podniknou kroky. To vedlo ke třem hlavním architektonickým přístupům, z nichž každý má své vlastní jedinečné silné a slabé stránky.

JEPA: Efektivita v reálném čase

První přístup, propagovaný laboratoří AMI, se zaměřuje na latentní reprezentace – učení se základním pravidlům interakce, aniž byste si pamatovali každý detail. Tato metoda založená na Joint Embedding Predictive Architecture (JEPA) napodobuje lidské poznání: sledujeme spíše trajektorie než každé listí v pozadí.

Modely JEPA vyřazují irelevantní data, čímž jsou výpočetně efektivní. To je ideální pro robotiku, samořídící auta a další aplikace v reálném čase, kde je rychlost kritická. AMI Labs již spolupracuje se zdravotnickými společnostmi na snížení kognitivní zátěže v rychle se měnícím prostředí. Podle Yanna LeCuna jsou modely založené na JEPA navrženy tak, aby dosahovaly cílů řízeným způsobem.

Gaussovy ikony: Prostorové ponoření

World Labs jde jinou cestou a vytváří plnohodnotná 3D prostředí z dotazů pomocí generativních modelů a Gaussových ploch (matematické částice, které definují geometrii a osvětlení). Tím se dramaticky snižují náklady na vytváření interaktivních 3D prostorů a řeší se problém „slovník ve tmě“, který identifikoval zakladatel World Labs Fei-Fei Li.

Tyto 3D pohledy jsou přímo kompatibilní s fyzikou a 3D enginy, jako je Unreal Engine, a poskytují bezproblémový zážitek. I když tento přístup není ideální pro okamžité provedení, má obrovský potenciál pro prostorové výpočty, zábavu a průmyslový design. Autodesk aktivně investuje do této technologie, aby ji integroval do svých návrhových aplikací.

End-to-End generace: Škálovatelná simulace

DeepMind’s Genie 3 a Nvidia’s Cosmos představují třetí přístup: generování celých scén, fyziky a reakcí za běhu. Model je motor, který zpracovává požadavky a akce v reálném čase.

To generuje obrovské množství syntetických dat, což umožňuje vývojářům testovat vzácné nebo nebezpečné scénáře bez fyzických rizik. Waymo upravuje Genie 3 pro výcvik svých samořídících vozů a Nvidia využívá Cosmos k vývoji autonomních vozidel. Nevýhodou je vysoká výpočetní cena, ale revoluční je možnost simulace kompletních fyzických interakcí.

Budoucnost: Hybridní architektury

LLM zůstanou důležité pro uvažování a komunikaci. Světové modely se však stávají základem infrastruktury pro fyzické a prostorové datové kanály. Příští vlna se bude pravděpodobně skládat z hybridních systémů, které kombinují silné stránky každého přístupu – predikci, prostorové ponoření a škálovatelné modelování. Cíl zůstává stejný: vytvořit AI, která o světě jen nemluví, ale rozumí mu.