Modele wielkojęzykowe (LLM) sięgają sufitu. Chociaż nowoczesna sztuczna inteligencja jest doskonała w przetwarzaniu tekstu, radzi sobie z zadaniami w świecie rzeczywistym, takimi jak robotyka i autonomiczna jazda, ponieważ brakuje jej podstawowej wiedzy o jak wszystko działa. To ograniczenie napędza ogromne inwestycje w „modele świata” – systemy sztucznej inteligencji, które symulują fizykę oraz związki przyczynowo-skutkowe, a nie po prostu przewidują następne słowo. Inwestorzy wpompowali już ponad 2 miliardy dolarów w start-upy, takie jak AMI Labs i World Labs, sygnalizując poważną zmianę w rozwoju sztucznej inteligencji.
Problem czystej prognozy
LLM działają poprzez przewidywanie najbardziej prawdopodobnego następnego tokena (słowa lub piksela). Naśladują ludzki język, nie rozumiejąc prawdziwych fizycznych konsekwencji swoich działań. Zdobywca nagrody Turinga Richard Sutton ostrzega, że takie podejście ogranicza zdolność sztucznej inteligencji do uczenia się na doświadczeniach i dostosowywania się do zmian. Dyrektor generalny Google DeepMind, Demis Hassabis, nazywa tę sytuację „kruchą inteligencją”: sztuczna inteligencja może przodować w abstrakcyjnych testach, ale zawodzi w podstawach fizyki. Ta kruchość oznacza, że modele łatwo pękają nawet przy niewielkich zmianach danych wejściowych.
Głównym problemem jest to, że obecna sztuczna inteligencja nie modeluje świata; naśladuje to, co ludzie o nim mówią. Dlatego nawet zaawansowane modele języka wizualnego (VLM) mogą zachowywać się nieprzewidywalnie w nieprzewidywalnych środowiskach.
Trzy podejścia do tworzenia modeli świata
Naukowcy nadają obecnie priorytet systemom sztucznej inteligencji, które działają jako wewnętrzne symulatory i testują hipotezy przed podjęciem działań. Doprowadziło to do trzech głównych podejść architektonicznych, każde z własnymi, unikalnymi mocnymi i słabymi stronami.
JEPA: Wydajność w czasie rzeczywistym
Pierwsze podejście, promowane przez AMI Labs, koncentruje się na utajonych reprezentacjach — nauce podstawowych zasad interakcji bez zapamiętywania każdego szczegółu. Metoda ta, oparta na architekturze predykcyjnej Joint Embedding Predictive Architecture (JEPA), naśladuje ludzkie funkcje poznawcze: śledzimy trajektorie, a nie wszystkie liście w tle.
Modele JEPA odrzucają nieistotne dane, dzięki czemu są wydajne obliczeniowo. Jest to idealne rozwiązanie w robotyce, samochodach autonomicznych i innych zastosowaniach czasu rzeczywistego, w których prędkość ma kluczowe znaczenie. AMI Labs współpracuje już z firmami z branży opieki zdrowotnej, aby zmniejszyć obciążenie poznawcze w dynamicznych środowiskach. Według Yanna LeCuna modele oparte na JEPA są zaprojektowane tak, aby osiągać cele w kontrolowany sposób.
Plamy Gaussa: zanurzenie przestrzenne
World Labs podąża inną drogą, tworząc pełne środowiska 3D na podstawie zapytań wykorzystujących modele generatywne i ikony Gaussa (cząstki matematyczne definiujące geometrię i oświetlenie). To radykalnie zmniejsza koszty tworzenia interaktywnych przestrzeni 3D, rozwiązując problem „kowalstwa słów w ciemności” zidentyfikowany przez założyciela World Labs Fei-Fei Li.
Te widoki 3D są bezpośrednio kompatybilne z silnikami fizyki i 3D, takimi jak Unreal Engine, zapewniając płynne wrażenia. Chociaż to podejście nie jest idealne do natychmiastowego wykonania, ma ogromny potencjał w zakresie obliczeń przestrzennych, rozrywki i wzornictwa przemysłowego. Autodesk aktywnie inwestuje w tę technologię, aby zintegrować ją ze swoimi aplikacjami projektowymi.
Kompleksowa generacja: skalowalna symulacja
Genie 3 firmy DeepMind i Cosmos firmy Nvidia reprezentują trzecie podejście: generowanie całych scen, fizyki i reakcji na bieżąco. Model jest silnikiem przetwarzającym żądania i działania w czasie rzeczywistym.
Generuje to ogromne ilości danych syntetycznych, umożliwiając programistom testowanie rzadkich lub niebezpiecznych scenariuszy bez ryzyka fizycznego. Waymo dostosowuje Genie 3 do szkolenia samochodów autonomicznych, a Nvidia wykorzystuje Cosmos do opracowywania pojazdów autonomicznych. Wadą jest wysoki koszt obliczeniowy, ale możliwość symulacji pełnych interakcji fizycznych jest rewolucyjna.
Przyszłość: architektury hybrydowe
LLM pozostaną ważne dla rozumowania i komunikacji. Jednak modele świata stają się podstawą infrastruktury potoków danych fizycznych i przestrzennych. Następna fala będzie prawdopodobnie składać się z systemów hybrydowych, które łączą mocne strony każdego podejścia – przewidywanie, immersję przestrzenną i skalowalne modelowanie. Cel pozostaje ten sam: stworzyć sztuczną inteligencję, która nie tylko mówi o świecie, ale rozumie go.






























