Próximo salto da IA: Compreendendo o mundo físico

14

Grandes modelos de linguagem (LLMs) estão se deparando com um obstáculo. Embora sejam excelentes no processamento de texto, a IA atual tem dificuldades em aplicações do mundo real, como robótica e direção autônoma, porque lhe falta uma compreensão fundamental de como as coisas funcionam. Esta limitação está a conduzir a investimentos maciços em “modelos mundiais” – sistemas de IA que simulam a física e a causalidade, e não apenas preveem a próxima palavra. Os investidores já investiram mais de 2 mil milhões de dólares em startups como AMI Labs e World Labs, sinalizando uma grande mudança no desenvolvimento da IA.

O problema da previsão pura

Os LLMs operam prevendo o próximo token mais provável (palavra ou pixel). Eles imitam a linguagem humana sem compreender verdadeiramente as consequências físicas das ações. O vencedor do Prêmio Turing, Richard Sutton, alerta que esta abordagem limita a capacidade da IA ​​de aprender com a experiência e de se adaptar às mudanças. O CEO do Google DeepMind, Demis Hassabis, chama isso de “inteligência irregular”: a IA pode ser boa em testes abstratos, mas falha na física básica. Essa fragilidade significa que os modelos quebram facilmente mesmo com pequenas alterações de entrada.

A questão central é que a IA atual não modela o mundo; imita o que as pessoas dizem sobre isso. É por isso que mesmo modelos avançados de linguagem de visão (VLMs) podem se comportar de maneira irregular em ambientes imprevisíveis.

Três abordagens para construir modelos mundiais

Os investigadores estão agora a dar prioridade a sistemas de IA que funcionam como simuladores internos, testando hipóteses antes de agir. Isso levou a três abordagens arquitetônicas principais, cada uma com pontos fortes e fracos únicos.

JEPA: Eficiência em tempo real

A primeira abordagem, defendida pelo AMI Labs, concentra-se em representações latentes – aprender as regras básicas de interação sem memorizar todos os detalhes. Baseado na Joint Embedding Predictive Architecture (JEPA), este método imita a cognição humana: rastreamos trajetórias, não todas as folhas no fundo.

Os modelos JEPA descartam dados irrelevantes, tornando-os computacionalmente eficientes. Isso é ideal para robótica, carros autônomos e outras aplicações em tempo real onde a velocidade é crítica. AMI Labs já está fazendo parceria com empresas de saúde para reduzir a carga cognitiva em ambientes de ritmo acelerado. De acordo com Yann LeCun, os modelos baseados em JEPA são projetados para atingir metas de forma controlada.

Splats gaussianos: imersão espacial

O World Labs segue um caminho diferente, construindo ambientes 3D completos a partir de prompts usando modelos generativos e splats gaussianos (partículas matemáticas que definem geometria e iluminação). Isso reduz drasticamente o custo de criação de espaços 3D interativos, abordando o problema do “formador de palavras no escuro” identificado pelo fundador do World Labs, Fei-Fei Li.

Essas representações 3D são diretamente compatíveis com a física e mecanismos 3D como o Unreal Engine, permitindo uma interação perfeita. Embora não seja ideal para execução em frações de segundo, esta abordagem tem um enorme potencial para computação espacial, entretenimento e design industrial. A Autodesk investe pesadamente nesta tecnologia para integrá-la em suas aplicações de projeto.

Geração ponta a ponta: simulação escalonável

O Genie 3 da DeepMind e o Cosmos da Nvidia representam uma terceira abordagem: gerar cenas inteiras, física e reações em tempo real. O modelo é o mecanismo, processando prompts e ações em tempo real.

Isso permite a geração massiva de dados sintéticos, permitindo que os desenvolvedores testem cenários raros ou perigosos sem riscos físicos. A Waymo está adaptando o Genie 3 para treinar seus carros autônomos, e a Nvidia usa o Cosmos para o desenvolvimento de veículos autônomos. A desvantagem é o alto custo computacional, mas a capacidade de simular interações físicas completas é uma virada de jogo.

O Futuro: Arquiteturas Híbridas

Os LLMs continuarão cruciais para o raciocínio e a comunicação. Contudo, os modelos mundiais estão a tornar-se a infra-estrutura fundamental para os canais de dados físicos e espaciais. A próxima onda provavelmente será de sistemas híbridos que combinam os pontos fortes de cada abordagem – previsão, imersão espacial e simulação escalável. O objetivo permanece o mesmo: criar uma IA que não apenas fale sobre o mundo, mas que o entenda.