El próximo salto de la IA: comprender el mundo físico

10

Los modelos de lenguajes grandes (LLM) están chocando contra una pared. Si bien destacan en el procesamiento de texto, la IA actual tiene dificultades en aplicaciones del mundo real como la robótica y la conducción autónoma porque carece de una comprensión fundamental de cómo funcionan las cosas. Esta limitación está impulsando una inversión masiva en “modelos mundiales”: sistemas de inteligencia artificial que simulan la física y la causalidad, no solo predicen la siguiente palabra. Los inversores ya han invertido más de 2.000 millones de dólares en nuevas empresas como AMI Labs y World Labs, lo que indica un cambio importante en el desarrollo de la IA.

El problema de la predicción pura

Los LLM funcionan prediciendo el siguiente token (palabra o píxel) más probable. Imitan el lenguaje humano sin comprender realmente las consecuencias físicas de las acciones. El ganador del Premio Turing, Richard Sutton, advierte que este enfoque limita la capacidad de la IA para aprender de la experiencia y adaptarse a los cambios. El director ejecutivo de Google DeepMind, Demis Hassabis, llama a esto “inteligencia irregular”: la IA puede superar pruebas abstractas pero falla en física básica. Esta fragilidad significa que los modelos se rompen fácilmente incluso con cambios de entrada menores.

La cuestión central es que la IA actual no modela el mundo; imita lo que la gente dice al respecto. Esta es la razón por la que incluso los modelos de visión y lenguaje (VLM) avanzados pueden comportarse de manera errática en entornos impredecibles.

Tres enfoques para construir modelos mundiales

Los investigadores ahora están dando prioridad a los sistemas de IA que actúan como simuladores internos, probando hipótesis antes de actuar. Esto ha llevado a tres enfoques arquitectónicos principales, cada uno con fortalezas y debilidades únicas.

JEPA: Eficiencia en tiempo real

El primer enfoque, defendido por AMI Labs, se centra en representaciones latentes : aprender las reglas básicas de interacción sin memorizar cada detalle. Basado en la Arquitectura Predictiva de Incrustación Conjunta (JEPA), este método imita la cognición humana: rastreamos las trayectorias, no cada hoja en el fondo.

Los modelos JEPA descartan datos irrelevantes, lo que los hace computacionalmente eficientes. Esto es ideal para robótica, vehículos autónomos y otras aplicaciones en tiempo real donde la velocidad es fundamental. AMI Labs ya se está asociando con empresas de atención médica para reducir la carga cognitiva en entornos acelerados. Según Yann LeCun, los modelos basados ​​en JEPA están diseñados para alcanzar objetivos de forma controlable.

Símbolos gaussianos: inmersión espacial

World Labs toma una ruta diferente, construyendo entornos 3D completos a partir de indicaciones utilizando modelos generativos y símbolos gaussianos (partículas matemáticas que definen la geometría y la iluminación). Esto reduce drásticamente el costo de crear espacios 3D interactivos, abordando el problema del “creador de palabras en la oscuridad” identificado por el fundador de World Labs, Fei-Fei Li.

Estas representaciones 3D son directamente compatibles con la física y los motores 3D como Unreal Engine, lo que permite una interacción perfecta. Si bien no es ideal para una ejecución en una fracción de segundo, este enfoque tiene un enorme potencial para la computación espacial, el entretenimiento y el diseño industrial. Autodesk está invirtiendo mucho en esta tecnología para integrarla en sus aplicaciones de diseño.

Generación de extremo a extremo: simulación escalable

Genie 3 de DeepMind y Cosmos de Nvidia representan un tercer enfoque: generar escenas completas, físicas y reacciones sobre la marcha. El modelo es el motor, que procesa indicaciones y acciones en tiempo real.

Esto permite la generación masiva de datos sintéticos, lo que permite a los desarrolladores probar escenarios raros o peligrosos sin riesgos físicos. Waymo está adaptando Genie 3 para entrenar sus vehículos autónomos y Nvidia utiliza Cosmos para el desarrollo de vehículos autónomos. La desventaja es el alto costo computacional, pero la capacidad de simular interacciones físicas completas cambia las reglas del juego.

El futuro: arquitecturas híbridas

Los LLM seguirán siendo cruciales para el razonamiento y la comunicación. Sin embargo, los modelos mundiales se están convirtiendo en la infraestructura fundamental para los canales de datos físicos y espaciales. La próxima ola probablemente serán sistemas híbridos que combinen los puntos fuertes de cada enfoque: predicción, inmersión espacial y simulación escalable. El objetivo sigue siendo el mismo: crear una IA que no sólo hable sobre el mundo, sino que lo entienda.