Nejnovější zprávy a články

Další skok AI: Pochopení fyzického světa

21.03.2026

** Modely velkých jazyků (LLM) narážejí na strop. Zatímco vynikají ve zpracování textu, moderní umělá inteligence se potýká s úkoly v reálném světě, jako je robotika a autonomní řízení, protože postrádá základní pochopení toho, jak věci fungují. Toto omezení vede k obrovským investicím do „modelů světa“ – systémů umělé inteligence, které spíše simulují fyziku a vztahy příčiny a následku, než aby jednoduše předpovídaly další slovo. Investoři již nalili více než 2 miliardy dolarů do startupů, jako jsou AMI Labs a World Labs, což signalizuje velký posun ve vývoji AI.

Problém čisté předpovědi

LLM fungují tak, že předpovídají nejpravděpodobnější další token (slovo nebo pixel). Napodobují lidský jazyk, aniž by chápali skutečné fyzické důsledky svých činů. Vítěz Turingovy ceny Richard Sutton varuje, že tento přístup omezuje schopnost umělé inteligence učit se ze zkušeností a přizpůsobovat se změnám. Generální ředitel Google DeepMind Demis Hassabis tomu říká „křehká inteligence“: AI může vynikat v abstraktních testech, ale selhává v základní fyzice. Tato křehkost znamená, že se modely snadno rozbijí i při malých změnách vstupních dat.

Hlavním problémem je, že současná umělá inteligence nemodeluje svět; napodobuje to, co o něm lidé říkají. To je důvod, proč se i pokročilé modely vizuálního jazyka (VLM) mohou chovat nepředvídatelně v nepředvídatelných prostředích.

Tři přístupy k vytváření světových modelů

Výzkumníci nyní upřednostňují systémy umělé inteligence, které fungují jako interní simulátory a testují hypotézy, než podniknou kroky. To vedlo ke třem hlavním architektonickým přístupům, z nichž každý má své vlastní jedinečné silné a slabé stránky.

JEPA: Efektivita v reálném čase

První přístup, propagovaný laboratoří AMI, se zaměřuje na latentní reprezentace – učení se základním pravidlům interakce, aniž byste si pamatovali každý detail. Tato metoda založená na Joint Embedding Predictive Architecture (JEPA) napodobuje lidské poznání: sledujeme spíše trajektorie než každé listí v pozadí.

Modely JEPA vyřazují irelevantní data, čímž jsou výpočetně efektivní. To je ideální pro robotiku, samořídící auta a další aplikace v reálném čase, kde je rychlost kritická. AMI Labs již spolupracuje se zdravotnickými společnostmi na snížení kognitivní zátěže v rychle se měnícím prostředí. Podle Yanna LeCuna jsou modely založené na JEPA navrženy tak, aby dosahovaly cílů řízeným způsobem.

Gaussovy ikony: Prostorové ponoření

World Labs jde jinou cestou a vytváří plnohodnotná 3D prostředí z dotazů pomocí generativních modelů a Gaussových ploch (matematické částice, které definují geometrii a osvětlení). Tím se dramaticky snižují náklady na vytváření interaktivních 3D prostorů a řeší se problém „slovník ve tmě“, který identifikoval zakladatel World Labs Fei-Fei Li.

Tyto 3D pohledy jsou přímo kompatibilní s fyzikou a 3D enginy, jako je Unreal Engine, a poskytují bezproblémový zážitek. I když tento přístup není ideální pro okamžité provedení, má obrovský potenciál pro prostorové výpočty, zábavu a průmyslový design. Autodesk aktivně investuje do této technologie, aby ji integroval do svých návrhových aplikací.

End-to-End generace: Škálovatelná simulace

DeepMind’s Genie 3 a Nvidia’s Cosmos představují třetí přístup: generování celých scén, fyziky a reakcí za běhu. Model je motor, který zpracovává požadavky a akce v reálném čase.

To generuje obrovské množství syntetických dat, což umožňuje vývojářům testovat vzácné nebo nebezpečné scénáře bez fyzických rizik. Waymo upravuje Genie 3 pro výcvik svých samořídících vozů a Nvidia využívá Cosmos k vývoji autonomních vozidel. Nevýhodou je vysoká výpočetní cena, ale revoluční je možnost simulace kompletních fyzických interakcí.

Budoucnost: Hybridní architektury

LLM zůstanou důležité pro uvažování a komunikaci. Světové modely se však stávají základem infrastruktury pro fyzické a prostorové datové kanály. Příští vlna se bude pravděpodobně skládat z hybridních systémů, které kombinují silné stránky každého přístupu – predikci, prostorové ponoření a škálovatelné modelování. Cíl zůstává stejný: vytvořit AI, která o světě jen nemluví, ale rozumí mu.

Další skok AI: Pochopení fyzického světa

Problém čisté předpovědi

Tři přístupy k vytváření světových modelů

JEPA: Efektivita v reálném čase

Gaussovy ikony: Prostorové ponoření

End-to-End generace: Škálovatelná simulace

Budoucnost: Hybridní architektury

Популярні

Evropská komise vyzvala, aby při aktualizaci předpisů upřednostňovala transparentnost před rychlostí

Zvládnutí Eevee Evolutions v Pokémon Legends: Z-A

Generální ředitel společnosti Monzo byl nucen skončit kvůli kontroverzi o IPO

The Rise of Niche Podcasts: Proč se daří speciálnímu obsahu

Я ніколи не заряджаю свій iPhone на 100%. Ось чому і...

Безкоштовний огляд ChatGPT: неймовірна потужність із запрограмованими обмеженнями

Rozšíření spywaru: Když vládní dohled překročí hranice

Warner Music Group vstupuje do partnerství s AI, urovnává právní neshody

Сьогодні NYT 6 жовтня міні -кросворди відповіді.

ВИБІР РЕДАКТОРА

Trump Administration navrhuje centralizovanou regulaci AI, která blokuje kontrolu USA

Kalshi dočasně zakázáno v Nevadě uprostřed rostoucích právních problémů

Scale AI запускает «Голосовое Противостояние»: Новый Эталон для Оценки Голосового ИИ...

ПОПУЛЯРНІ ПОВІДОМЛЕННЯ

H&M investuje do startupu, který přeměňuje CO₂ na oděvní materiál

Может ли виртуальная реальность воспитывать эмпатию в эпоху разделения?

Společnost Meta spustila v Evropě video kotouč „Vibes“ generovaný umělou inteligencí

ПОПУЛЯРНА КАТЕГОРІЯ