Najnowsze wiadomości i artykuły

Następny krok AI: Zrozumienie świata fizycznego

21.03.2026

Modele wielkojęzykowe (LLM) sięgają sufitu. Chociaż nowoczesna sztuczna inteligencja jest doskonała w przetwarzaniu tekstu, radzi sobie z zadaniami w świecie rzeczywistym, takimi jak robotyka i autonomiczna jazda, ponieważ brakuje jej podstawowej wiedzy o jak wszystko działa. To ograniczenie napędza ogromne inwestycje w „modele świata” – systemy sztucznej inteligencji, które symulują fizykę oraz związki przyczynowo-skutkowe, a nie po prostu przewidują następne słowo. Inwestorzy wpompowali już ponad 2 miliardy dolarów w start-upy, takie jak AMI Labs i World Labs, sygnalizując poważną zmianę w rozwoju sztucznej inteligencji.

Problem czystej prognozy

LLM działają poprzez przewidywanie najbardziej prawdopodobnego następnego tokena (słowa lub piksela). Naśladują ludzki język, nie rozumiejąc prawdziwych fizycznych konsekwencji swoich działań. Zdobywca nagrody Turinga Richard Sutton ostrzega, że takie podejście ogranicza zdolność sztucznej inteligencji do uczenia się na doświadczeniach i dostosowywania się do zmian. Dyrektor generalny Google DeepMind, Demis Hassabis, nazywa tę sytuację „kruchą inteligencją”: sztuczna inteligencja może przodować w abstrakcyjnych testach, ale zawodzi w podstawach fizyki. Ta kruchość oznacza, że modele łatwo pękają nawet przy niewielkich zmianach danych wejściowych.

Głównym problemem jest to, że obecna sztuczna inteligencja nie modeluje świata; naśladuje to, co ludzie o nim mówią. Dlatego nawet zaawansowane modele języka wizualnego (VLM) mogą zachowywać się nieprzewidywalnie w nieprzewidywalnych środowiskach.

Trzy podejścia do tworzenia modeli świata

Naukowcy nadają obecnie priorytet systemom sztucznej inteligencji, które działają jako wewnętrzne symulatory i testują hipotezy przed podjęciem działań. Doprowadziło to do trzech głównych podejść architektonicznych, każde z własnymi, unikalnymi mocnymi i słabymi stronami.

JEPA: Wydajność w czasie rzeczywistym

Pierwsze podejście, promowane przez AMI Labs, koncentruje się na utajonych reprezentacjach — nauce podstawowych zasad interakcji bez zapamiętywania każdego szczegółu. Metoda ta, oparta na architekturze predykcyjnej Joint Embedding Predictive Architecture (JEPA), naśladuje ludzkie funkcje poznawcze: śledzimy trajektorie, a nie wszystkie liście w tle.

Modele JEPA odrzucają nieistotne dane, dzięki czemu są wydajne obliczeniowo. Jest to idealne rozwiązanie w robotyce, samochodach autonomicznych i innych zastosowaniach czasu rzeczywistego, w których prędkość ma kluczowe znaczenie. AMI Labs współpracuje już z firmami z branży opieki zdrowotnej, aby zmniejszyć obciążenie poznawcze w dynamicznych środowiskach. Według Yanna LeCuna modele oparte na JEPA są zaprojektowane tak, aby osiągać cele w kontrolowany sposób.

Plamy Gaussa: zanurzenie przestrzenne

World Labs podąża inną drogą, tworząc pełne środowiska 3D na podstawie zapytań wykorzystujących modele generatywne i ikony Gaussa (cząstki matematyczne definiujące geometrię i oświetlenie). To radykalnie zmniejsza koszty tworzenia interaktywnych przestrzeni 3D, rozwiązując problem „kowalstwa słów w ciemności” zidentyfikowany przez założyciela World Labs Fei-Fei Li.

Te widoki 3D są bezpośrednio kompatybilne z silnikami fizyki i 3D, takimi jak Unreal Engine, zapewniając płynne wrażenia. Chociaż to podejście nie jest idealne do natychmiastowego wykonania, ma ogromny potencjał w zakresie obliczeń przestrzennych, rozrywki i wzornictwa przemysłowego. Autodesk aktywnie inwestuje w tę technologię, aby zintegrować ją ze swoimi aplikacjami projektowymi.

Kompleksowa generacja: skalowalna symulacja

Genie 3 firmy DeepMind i Cosmos firmy Nvidia reprezentują trzecie podejście: generowanie całych scen, fizyki i reakcji na bieżąco. Model jest silnikiem przetwarzającym żądania i działania w czasie rzeczywistym.

Generuje to ogromne ilości danych syntetycznych, umożliwiając programistom testowanie rzadkich lub niebezpiecznych scenariuszy bez ryzyka fizycznego. Waymo dostosowuje Genie 3 do szkolenia samochodów autonomicznych, a Nvidia wykorzystuje Cosmos do opracowywania pojazdów autonomicznych. Wadą jest wysoki koszt obliczeniowy, ale możliwość symulacji pełnych interakcji fizycznych jest rewolucyjna.

Przyszłość: architektury hybrydowe

LLM pozostaną ważne dla rozumowania i komunikacji. Jednak modele świata stają się podstawą infrastruktury potoków danych fizycznych i przestrzennych. Następna fala będzie prawdopodobnie składać się z systemów hybrydowych, które łączą mocne strony każdego podejścia – przewidywanie, immersję przestrzenną i skalowalne modelowanie. Cel pozostaje ten sam: stworzyć sztuczną inteligencję, która nie tylko mówi o świecie, ale rozumie go.

Następny krok AI: Zrozumienie świata fizycznego

Problem czystej prognozy

Trzy podejścia do tworzenia modeli świata

JEPA: Wydajność w czasie rzeczywistym

Plamy Gaussa: zanurzenie przestrzenne

Kompleksowa generacja: skalowalna symulacja

Przyszłość: architektury hybrydowe

Популярні

Огляд робочого столу Alienware Area-51: стиль Alienware без фірмових деталей

Rozwiązania mini-krzyżówki The New York Times z 29 stycznia

Zgubiłeś iPhone’a? Jak funkcja Znajdź mój iPhone działa nawet przy niskim...

NYT Strand #728: Wskazówki i rozwiązania na 1 marca

Від” швейцарського армійського ножа ” Motorola в області штучного інтелекту у...

Google Pixel 10 Pro Fold: wytrzymały, składany smartfon z naciskiem na...

„Czy jeszcze żyjesz?” Aplikacja zyskuje na popularności wraz ze wzrostem liczby...

Растущее влияние Ника Фуэнтеса: как сторонник превосходства белой расы формирует Республиканскую...

„Śmieci” generowane przez sztuczną inteligencję słowem roku 2025 według Merriam-Webster

ВИБІР РЕДАКТОРА

Trump po raz kolejny próbuje zlikwidować stanowe regulacje dotyczące sztucznej inteligencji

Kalshi tymczasowo zakazany w Nevadzie w związku z narastającymi problemami prawnymi

Scale AI запускает «Голосовое Противостояние»: Новый Эталон для Оценки Голосового ИИ...

ПОПУЛЯРНІ ПОВІДОМЛЕННЯ

H&M inwestuje w start-up, który przetwarza CO₂ w materiał odzieżowy

Может ли виртуальная реальность воспитывать эмпатию в эпоху разделения?

Meta wprowadziła na rynek europejski bęben wideo „Vibes” generowany przez sztuczną...

ПОПУЛЯРНА КАТЕГОРІЯ