Следующий скачок ИИ: Понимание физического мира

15

Большие языковые модели (LLM) упираются в потолок. Хотя они превосходно справляются с обработкой текста, современный ИИ испытывает трудности в реальных задачах, таких как робототехника и автономное вождение, поскольку ему не хватает фундаментального понимания принципов работы вещей. Это ограничение стимулирует огромные инвестиции в «модели мира» — ИИ-системы, которые моделируют физику и причинно-следственные связи, а не просто предсказывают следующее слово. Инвесторы уже вложили более 2 миллиардов долларов в стартапы, такие как AMI Labs и World Labs, сигнализируя о серьезном сдвиге в разработке ИИ.

Проблема чистого предсказания

LLM работают, предсказывая наиболее вероятный следующий токен (слово или пиксель). Они имитируют человеческий язык, не понимая истинных физических последствий действий. Лауреат премии Тьюринга Ричард Саттон предупреждает, что такой подход ограничивает способность ИИ учиться на опыте и адаптироваться к изменениям. Генеральный директор Google DeepMind Демис Хассабис называет это «неустойчивым интеллектом»: ИИ может превосходно справляться с абстрактными тестами, но терпит неудачу в базовой физике. Эта хрупкость означает, что модели легко ломаются даже при незначительных изменениях входных данных.

Основная проблема заключается в том, что текущий ИИ не моделирует мир; он имитирует то, что говорят о нем люди. Именно поэтому даже продвинутые визуально-языковые модели (VLM) могут вести себя непредсказуемо в непредсказуемых условиях.

Три подхода к созданию моделей мира

Исследователи теперь уделяют приоритетное внимание ИИ-системам, которые действуют как внутренние симуляторы, проверяя гипотезы перед выполнением действий. Это привело к трем основным архитектурным подходам, каждый из которых имеет свои уникальные сильные и слабые стороны.

JEPA: Эффективность в реальном времени

Первый подход, продвигаемый AMI Labs, фокусируется на латентных представлениях — обучении основным правилам взаимодействия без запоминания каждой детали. Основанный на Joint Embedding Predictive Architecture (JEPA), этот метод имитирует человеческое познание: мы отслеживаем траектории, а не каждую листву на заднем плане.

JEPA модели отбрасывают нерелевантные данные, что делает их вычислительно эффективными. Это идеально подходит для робототехники, самоуправляемых автомобилей и других приложений реального времени, где скорость критически важна. AMI Labs уже сотрудничает с медицинскими компаниями, чтобы снизить когнитивную нагрузку в быстро меняющихся условиях. По словам Яна ЛеКуна, модели на основе JEPA предназначены для достижения целей контролируемым образом.

Gaussian Splats: Пространственное погружение

World Labs идет другим путем, создавая полные 3D-окружения из запросов с использованием генеративных моделей и Gaussian splats (математических частиц, определяющих геометрию и освещение). Это резко снижает стоимость создания интерактивных 3D-пространств, решая проблему «словесника в темноте», выявленную основателем World Labs, Феи-Феи Ли.

Эти 3D-представления напрямую совместимы с физикой и 3D-движками, такими как Unreal Engine, обеспечивая бесшовное взаимодействие. Хотя этот подход не идеален для мгновенного выполнения, он имеет огромный потенциал для пространственных вычислений, развлечений и промышленного дизайна. Autodesk активно инвестирует в эту технологию, чтобы интегрировать ее в свои дизайнерские приложения.

End-to-End Generation: Масштабируемое моделирование

Genie 3 от DeepMind и Cosmos от Nvidia представляют собой третий подход: генерацию целых сцен, физики и реакций на лету. Модель является движком, обрабатывающим запросы и действия в реальном времени.

Это позволяет генерировать огромное количество синтетических данных, позволяя разработчикам тестировать редкие или опасные сценарии без физических рисков. Waymo адаптирует Genie 3 для обучения своих самоуправляемых автомобилей, а Nvidia использует Cosmos для разработки автономных транспортных средств. Недостатком является высокая вычислительная стоимость, но возможность моделирования полных физических взаимодействий является революционной.

Будущее: Гибридные архитектуры

LLM останутся важными для рассуждений и коммуникации. Однако модели мира становятся основой инфраструктуры для физических и пространственных конвейеров данных. Следующая волна, вероятно, будет состоять из гибридных систем, которые сочетают в себе сильные стороны каждого подхода — предсказание, пространственное погружение и масштабируемое моделирование. Цель остается прежней: создать ИИ, который не просто говорит о мире, а понимает его.