El auge de los ‘modelos mundiales’: cuando la IA comienza a comprender la realidad

9

La inteligencia artificial ha avanzado rápidamente en los últimos años, dominando tareas como la generación de texto, la creación de imágenes e incluso la codificación de software. Pero la próxima frontera no se trata de describir el mundo, sino de que las máquinas aprendan cómo funciona realmente el mundo. Este impulso ha llevado al desarrollo de “modelos mundiales”, sistemas de inteligencia artificial diseñados para simular y predecir la realidad física, una capacidad preparada para transformar la robótica, los sistemas autónomos e incluso la medicina.

¿Qué son los modelos mundiales?

El concepto de modelos mundiales no es nuevo y se remonta a la década de 1950, pero resurgió en la investigación de IA alrededor de 2018 y ganó impulso en 2024 con herramientas como Sora de OpenAI y Genie de Google DeepMind. En 2025, Cosmos de Nvidia, coronada como “Mejor IA” en CES, y V-JEPA 2 de Meta, que pretende comprender la física básica como la gravedad, consolidaron aún más la importancia del campo.

Esencialmente, los modelos mundiales cierran la brecha entre el conocimiento abstracto y la comprensión encarnada. Los “modelos básicos” tradicionales (como ChatGPT) aprenden de vastos conjuntos de datos pero carecen de experiencia directa. Pueden describir la gravedad pero no sienten el peso. Los modelos de fundación mundial, por el contrario, simulan entornos físicos utilizando videos y datos sensoriales, lo que permite a la IA predecir resultados basados ​​en acciones.

Del lenguaje a la predicción

Los modelos de lenguaje grande (LLM) se destacan en el procesamiento de texto, pero operan según la correlación en lugar de la causalidad. Los modelos mundiales cambian el enfoque: en lugar de predecir la siguiente palabra, predicen lo que sucede después después de que se realiza una acción. Esto podría ser tan simple como pronosticar cómo se mueve un objeto o tan complejo como un automóvil autónomo que anticipa patrones de tráfico.

Como dice Eric Landau, director ejecutivo de la empresa de datos de inteligencia artificial Encord, los modelos mundiales no necesariamente reemplazan a los LLM, sino que los acompañan como una vía paralela de desarrollo. Los LLM contienen cierto conocimiento mundial implícito, pero está fragmentado. Los modelos mundiales apuntan a una representación más limpia y directa de la realidad.

Cómo funcionan: dos enfoques

Los modelos mundiales operan de dos maneras principales: generación en tiempo real y simulación de entorno fijo. El primero crea un mundo dinámico que responde a las interacciones, muy parecido a un videojuego. El segundo construye un entorno predefinido con reglas establecidas, lo que permite la exploración sin desestabilizar la simulación.

Ambos métodos tienen como objetivo brindar a la IA una comprensión más profunda de la causa y el efecto, permitiéndole razonar antes de actuar en lugar de reaccionar paso a paso. Esto es fundamental para robots, vehículos autónomos y otros sistemas que necesitan predicciones confiables en espacios físicos.

El futuro de la IA: robótica, medicina y más

La demanda de modelos mundiales está creciendo a medida que la IA va más allá de los chatbots hacia agentes más independientes. La formación en el mundo real es costosa y arriesgada; Las simulaciones ofrecen una alternativa más segura y eficiente. La robótica y la conducción autónoma son aplicaciones obvias, pero el potencial va más allá.

Los investigadores predicen una rápida expansión hacia la medicina, donde los modelos mundiales podrían revolucionar el descubrimiento de fármacos y la planificación del tratamiento mediante la simulación de interacciones biológicas complejas. También podrían transformar herramientas creativas y educativas, permitiendo a los diseñadores probar prototipos en entornos inmersivos y a los estudiantes interactuar con sistemas simulados en lugar de simplemente leer sobre ellos.

Riesgos y desafíos

A pesar de la promesa, aún quedan obstáculos importantes. Simular la realidad con precisión es increíblemente difícil e incluso los errores menores pueden agravarse con el tiempo. La potencia informática es una limitación importante, ya que estos modelos requieren enormes recursos de GPU. La adquisición de datos es otro cuello de botella; Los datos de sensores de alta calidad son mucho más difíciles de obtener que el texto utilizado para capacitar a los LLM.

Más allá de los desafíos técnicos, los expertos advierten sobre posibles usos indebidos, incluidos agentes autónomos armados y la alteración social de la automatización generalizada.

Como afirmó recientemente el director ejecutivo de Nvidia, Jensen Huang, la IA es “la tecnología más impactante de nuestro tiempo”. El desarrollo de modelos mundiales marca un paso fundamental hacia una IA que no solo procesa información sino que comprende el mundo que la rodea, lo que plantea preguntas fundamentales sobre el futuro de la inteligencia y la automatización.