A ascensão dos ‘modelos mundiais’: quando a IA começa a compreender a realidade

3

A inteligência artificial fez progressos rápidos nos últimos anos, dominando tarefas como geração de texto, criação de imagens e até codificação de software. Mas a próxima fronteira não se trata de descrever o mundo – trata-se de máquinas aprendendo como o mundo realmente funciona. Este impulso levou ao desenvolvimento de “modelos mundiais”, sistemas de IA concebidos para simular e prever a realidade física, uma capacidade preparada para transformar a robótica, os sistemas autónomos e até a medicina.

O que são modelos mundiais?

O conceito de modelos mundiais não é novo, remonta à década de 1950, mas ressurgiu na pesquisa de IA por volta de 2018 e ganhou impulso em 2024 com ferramentas como Sora da OpenAI e Genie do Google DeepMind. Em 2025, o Cosmos da Nvidia, coroado como “Melhor IA” na CES, e o V-JEPA 2 da Meta, que afirma compreender a física básica como a gravidade, consolidaram ainda mais a importância do campo.

Essencialmente, os modelos mundiais preenchem a lacuna entre o conhecimento abstrato e a compreensão incorporada. Os “modelos básicos” tradicionais (como ChatGPT) aprendem com vastos conjuntos de dados, mas carecem de experiência direta. Eles podem descrever a gravidade, mas não sentir o peso. Os modelos de base mundial, por outro lado, simulam ambientes físicos usando vídeo e dados sensoriais, permitindo que a IA preveja resultados com base em ações.

Da linguagem à previsão

Os grandes modelos de linguagem (LLMs) são excelentes no processamento de texto, mas operam com base na correlação e não na causalidade. Os modelos mundiais mudam o foco: em vez de prever a próxima palavra, eles prevêem o que acontecerá a próxima depois que uma ação for tomada. Isso pode ser tão simples quanto prever como um objeto se move ou tão complexo quanto um carro autônomo antecipando padrões de tráfego.

Como afirma Eric Landau, CEO da empresa de dados de IA Encord, os modelos mundiais não estão necessariamente substituindo os LLMs, mas acompanhando-os como um caminho paralelo de desenvolvimento. Os LLMs contêm algum conhecimento mundial implícito, mas é fragmentado. Os modelos mundiais visam uma representação mais limpa e direta da realidade.

Como funcionam: duas abordagens

Os modelos mundiais operam de duas maneiras principais: geração em tempo real e simulação em ambiente fixo. O primeiro cria um mundo dinâmico que responde às interações, como um videogame. A segunda constrói um ambiente pré-definido com regras estabelecidas, permitindo a exploração sem desestabilizar a simulação.

Ambos os métodos visam dar à IA uma compreensão mais profunda de causa e efeito, permitindo-lhe raciocinar antes de agir, em vez de reagir passo a passo. Isto é fundamental para robôs, veículos autônomos e outros sistemas que necessitam de previsões confiáveis ​​em espaços físicos.

O futuro da IA: robótica, medicina e muito mais

A procura por modelos mundiais está a crescer à medida que a IA vai além dos chatbots em direção a agentes mais independentes. O treinamento no mundo real é caro e arriscado; simulações oferecem uma alternativa mais segura e eficiente. A robótica e a condução autónoma são aplicações óbvias, mas o potencial vai ainda mais longe.

Os investigadores prevêem uma rápida expansão na medicina, onde os modelos mundiais poderão revolucionar a descoberta de medicamentos e o planeamento de tratamentos, simulando interacções biológicas complexas. Eles também poderiam transformar ferramentas criativas e educacionais, permitindo que os designers testassem protótipos em ambientes imersivos e que os alunos interagissem com sistemas simulados, em vez de simplesmente lerem sobre eles.

Riscos e Desafios

Apesar da promessa, permanecem obstáculos significativos. Simular a realidade com precisão é incrivelmente difícil, e mesmo pequenos erros podem aumentar com o tempo. O poder de computação é uma grande restrição, pois esses modelos exigem enormes recursos de GPU. A aquisição de dados é outro gargalo; dados de sensores de alta qualidade são muito mais difíceis de obter do que o texto usado para treinar LLMs.

Para além dos desafios técnicos, os especialistas alertam para o potencial uso indevido, incluindo agentes autónomos armados e a perturbação social da automação generalizada.

Como afirmou recentemente o CEO da Nvidia, Jensen Huang, a IA é “a tecnologia mais impactante do nosso tempo”. O desenvolvimento de modelos mundiais marca um passo fundamental em direção à IA que não apenas processa informações, mas também compreende o mundo ao seu redor, levantando questões fundamentais sobre o futuro da inteligência e da automação.