Últimas notícias e artigos

Próximo salto da IA: Compreendendo o mundo físico

21.03.2026

Grandes modelos de linguagem (LLMs) estão se deparando com um obstáculo. Embora sejam excelentes no processamento de texto, a IA atual tem dificuldades em aplicações do mundo real, como robótica e direção autônoma, porque lhe falta uma compreensão fundamental de como as coisas funcionam. Esta limitação está a conduzir a investimentos maciços em “modelos mundiais” – sistemas de IA que simulam a física e a causalidade, e não apenas preveem a próxima palavra. Os investidores já investiram mais de 2 mil milhões de dólares em startups como AMI Labs e World Labs, sinalizando uma grande mudança no desenvolvimento da IA.

O problema da previsão pura

Os LLMs operam prevendo o próximo token mais provável (palavra ou pixel). Eles imitam a linguagem humana sem compreender verdadeiramente as consequências físicas das ações. O vencedor do Prêmio Turing, Richard Sutton, alerta que esta abordagem limita a capacidade da IA de aprender com a experiência e de se adaptar às mudanças. O CEO do Google DeepMind, Demis Hassabis, chama isso de “inteligência irregular”: a IA pode ser boa em testes abstratos, mas falha na física básica. Essa fragilidade significa que os modelos quebram facilmente mesmo com pequenas alterações de entrada.

A questão central é que a IA atual não modela o mundo; imita o que as pessoas dizem sobre isso. É por isso que mesmo modelos avançados de linguagem de visão (VLMs) podem se comportar de maneira irregular em ambientes imprevisíveis.

Três abordagens para construir modelos mundiais

Os investigadores estão agora a dar prioridade a sistemas de IA que funcionam como simuladores internos, testando hipóteses antes de agir. Isso levou a três abordagens arquitetônicas principais, cada uma com pontos fortes e fracos únicos.

JEPA: Eficiência em tempo real

A primeira abordagem, defendida pelo AMI Labs, concentra-se em representações latentes – aprender as regras básicas de interação sem memorizar todos os detalhes. Baseado na Joint Embedding Predictive Architecture (JEPA), este método imita a cognição humana: rastreamos trajetórias, não todas as folhas no fundo.

Os modelos JEPA descartam dados irrelevantes, tornando-os computacionalmente eficientes. Isso é ideal para robótica, carros autônomos e outras aplicações em tempo real onde a velocidade é crítica. AMI Labs já está fazendo parceria com empresas de saúde para reduzir a carga cognitiva em ambientes de ritmo acelerado. De acordo com Yann LeCun, os modelos baseados em JEPA são projetados para atingir metas de forma controlada.

Splats gaussianos: imersão espacial

O World Labs segue um caminho diferente, construindo ambientes 3D completos a partir de prompts usando modelos generativos e splats gaussianos (partículas matemáticas que definem geometria e iluminação). Isso reduz drasticamente o custo de criação de espaços 3D interativos, abordando o problema do “formador de palavras no escuro” identificado pelo fundador do World Labs, Fei-Fei Li.

Essas representações 3D são diretamente compatíveis com a física e mecanismos 3D como o Unreal Engine, permitindo uma interação perfeita. Embora não seja ideal para execução em frações de segundo, esta abordagem tem um enorme potencial para computação espacial, entretenimento e design industrial. A Autodesk investe pesadamente nesta tecnologia para integrá-la em suas aplicações de projeto.

Geração ponta a ponta: simulação escalonável

O Genie 3 da DeepMind e o Cosmos da Nvidia representam uma terceira abordagem: gerar cenas inteiras, física e reações em tempo real. O modelo é o mecanismo, processando prompts e ações em tempo real.

Isso permite a geração massiva de dados sintéticos, permitindo que os desenvolvedores testem cenários raros ou perigosos sem riscos físicos. A Waymo está adaptando o Genie 3 para treinar seus carros autônomos, e a Nvidia usa o Cosmos para o desenvolvimento de veículos autônomos. A desvantagem é o alto custo computacional, mas a capacidade de simular interações físicas completas é uma virada de jogo.

O Futuro: Arquiteturas Híbridas

Os LLMs continuarão cruciais para o raciocínio e a comunicação. Contudo, os modelos mundiais estão a tornar-se a infra-estrutura fundamental para os canais de dados físicos e espaciais. A próxima onda provavelmente será de sistemas híbridos que combinam os pontos fortes de cada abordagem – previsão, imersão espacial e simulação escalável. O objetivo permanece o mesmo: criar uma IA que não apenas fale sobre o mundo, mas que o entenda.

Próximo salto da IA: Compreendendo o mundo físico

O problema da previsão pura

Três abordagens para construir modelos mundiais

JEPA: Eficiência em tempo real

Splats gaussianos: imersão espacial

Geração ponta a ponta: simulação escalonável

O Futuro: Arquiteturas Híbridas

Популярні

AI é o centro das atenções: o prêmio App Store da...

As ofertas da Best Buy Black Friday estão aqui: compre antecipadamente...

Сьогоднішні відповіді на міні-кросворди NYT за 5 червня

Palantir: a empresa de software avaliada como uma máquina de guerra

Atualizações de Hollywood: atrasos, rumores e temporadas finais

Завдяки Xbox Game Pass класичні ігри 80-х і 90-х років Доступні...

Google Pixel Watch 4 проти Samsung Galaxy Watch 8: Spec Showdown

A explosão do spyware: quando a vigilância governamental vai longe demais

Comet AI Comet AI Web -Browser Comet AI мав серйозну вразливість...

ВИБІР РЕДАКТОРА

Administração Trump propõe regulamentação centralizada de IA, bloqueando o controle do...

Kalshi enfrenta proibição temporária em Nevada em meio a crescentes desafios...

Scale AI lança Voice Showdown: uma nova referência para desempenho de...

ПОПУЛЯРНІ ПОВІДОМЛЕННЯ

H&M investe em startup que transforma CO₂ em material de vestuário

Can Virtual Reality Cultivate Empathy in an Age of Division?

Meta lança feed de vídeo gerado por IA, “Vibes”, na Europa

ПОПУЛЯРНА КАТЕГОРІЯ