Наступний стрибок ІІ: Розуміння фізичного світу

1

Великі мовні моделі (LLM) упираються в стелю. Хоча вони чудово справляються з обробкою тексту, сучасний ІІ відчуває труднощі в реальних завданнях, таких як робототехніка та автономне водіння, оскільки йому не вистачає фундаментального розуміння принципів роботи речей. Це обмеження стимулює величезні інвестиції в “моделі світу” – ІІ-системи, які моделюють фізику та причинно-наслідкові зв’язки, а не просто пророкують таке слово. Інвестори вже вклали понад 2 мільярди доларів у стартапи, такі як AMI Labs та World Labs, сигналізуючи про серйозне зрушення у розробці ІІ.

Проблема чистого передбачення

LLM працюють, передбачаючи найбільш ймовірний наступний токен (слово або піксель). Вони імітують людську мову, не розуміючи справжніх фізичних наслідків дій. Лауреат премії Тьюринга Річард Саттон попереджає, що такий підхід обмежує здатність ІІ вчитися на досвіді та адаптуватися до змін. Генеральний директор Google DeepMind Деміс Хасабіс називає це “нестійким інтелектом”: ІІ може чудово справлятися з абстрактними тестами, але зазнає невдачі в базовій фізиці. Ця крихкість означає, що моделі легко ламаються навіть при незначних змінах вхідних даних.

Основна проблема полягає в тому, що поточний ІІ не моделює світ; він імітує те, що говорять про нього люди. Саме тому навіть просунуті візуально-мовні моделі (VLM) можуть вести себе непередбачувано у непередбачуваних умовах.

Три підходи до створення моделей світу

Дослідники тепер приділяють пріоритетну увагу ІІ системам, які діють як внутрішні симулятори, перевіряючи гіпотези перед виконанням дій. Це призвело до трьох основних архітектурних підходів, кожен із яких має свої унікальні сильні та слабкі сторони.

JEPA: Ефективність у реальному часі

Перший підхід, що просувається AMI Labs, фокусується на латентних уявленнях – навчанні основним правилам взаємодії без запам’ятовування кожної деталі. Заснований на Joint Embedding Predictive Architecture (JEPA), цей метод імітує людське пізнання: ми відстежуємо траєкторії, а не кожне листя на задньому плані.

JEPA моделі відкидають нерелевантні дані, що робить їх обчислювально ефективними. Це ідеально підходить для робототехніки, самоврядних автомобілів та інших програм реального часу, де швидкість критично важлива. AMI Labs вже співпрацює з медичними компаніями, щоб знизити когнітивне навантаження в умовах, що швидко змінюються. За словами Яна ЛеКуна, моделі на основі JEPA призначені для досягнення цілей контрольованим чином.

Gaussian Splats: Просторове занурення

World Labs йде іншим шляхом, створюючи повні 3D-оточення із запитів з використанням генеративних моделей та Gaussian splats (математичних частинок, що визначають геометрію та освітлення). Це різко знижує вартість створення інтерактивних 3D-просторів, вирішуючи проблему “словесника у темряві”, виявлену засновником World Labs, Феї-Феї Лі.

Ці 3D-вистави безпосередньо сумісні з фізикою та 3D-движками, такими як Unreal Engine, забезпечуючи безшовну взаємодію. Хоча цей підхід не є ідеальним для миттєвого виконання, він має величезний потенціал для просторових обчислень, розваг та промислового дизайну. Autodesk активно інвестує в цю технологію, щоб інтегрувати її у свої дизайнерські програми.

End-to-End Generation: Масштабоване моделювання

Genie 3 від DeepMind і Cosmos від Nvidia є третім підходом: генерацію цілих сцен, фізики та реакцій на льоту. Модель * є * двигуном, що обробляє запити та події в реальному часі.

Це дозволяє генерувати безліч синтетичних даних, дозволяючи розробникам тестувати рідкісні або небезпечні сценарії без фізичних ризиків. Waymo адаптує Genie 3 для навчання самоврядних автомобілів, а Nvidia використовує Cosmos для розробки автономних транспортних засобів. Недоліком є ​​висока обчислювальна вартість, але можливість моделювання повних фізичних взаємодій є революційною.

Майбутнє: Гібридні архітектури

LLM залишаться важливими для міркувань та комунікації. Однак моделі світу стають основою інфраструктури для фізичних та просторових конвеєрів даних. Наступна хвиля, ймовірно, складатиметься з гібридних систем, які поєднують у собі сильні сторони кожного підходу — передбачення, просторове занурення та масштабоване моделювання. Мета залишається колишньою: створити ІІ, який не просто говорить про світ, а розуміє його.