Los investigadores han presentado un nuevo método de entrenamiento, OpenMMReasoner, diseñado para mejorar las capacidades de razonamiento de los sistemas de inteligencia artificial que tratan tanto con texto como con datos visuales. Este marco se destaca por lograr un rendimiento sólido utilizando conjuntos de datos más pequeños y cuidadosamente seleccionados, lo que ofrece una alternativa más práctica a los modelos masivos de código cerrado.
El desafío del razonamiento multimodal
Los avances recientes en el aprendizaje por refuerzo han demostrado que los modelos de lenguaje grandes (LLM) pueden mejorar significativamente las habilidades de razonamiento cuando se los guía para explicar sus procesos de pensamiento antes de dar una respuesta. Este enfoque, conocido como razonamiento en cadena de pensamiento (CoT), imita la resolución de problemas humanos. El mismo principio se aplica ahora a los modelos multimodales, que manejan tanto texto como imágenes, mejorando su capacidad para abordar tareas complejas en múltiples formatos.
Sin embargo, el campo ha carecido de transparencia: muchos estudios no detallan sus procedimientos de capacitación y curación de datos, lo que dificulta la reproducibilidad y una comprensión más profunda de cómo funcionan estos modelos. OpenMMReasoner aborda directamente este problema proporcionando un proceso de capacitación totalmente transparente y escalable basado en LLM de código abierto.
Una receta de entrenamiento en dos etapas
OpenMMReasoner utiliza un enfoque de dos etapas:
- Ajuste fino supervisado (SFT): Esta fase inicial refina un modelo base utilizando un conjunto de datos curado, enfatizando la diversidad de datos. Los investigadores descubrieron que aumentar la variedad de respuestas correctas para la misma pregunta era clave para mejorar. El proceso de SFT consta de tres pasos:
- Recopilación de aproximadamente 103.000 pares de preguntas y respuestas de conjuntos de datos públicos.
- Uso de un modelo de alto rendimiento (Qwen3-VL-235B-Instruct) para generar nuevas trazas de razonamiento de alta calidad.
-
Ampliar el conjunto de datos a 874.000 ejemplos a través de múltiples rastros de razonamiento verificados y combinación de dominios (incluidos datos de razonamiento matemático).
-
Aprendizaje por refuerzo (RL): La segunda etapa emplea un conjunto de datos más pequeño (74.000 muestras) centrado en ciencias, matemáticas y acertijos. El modelo está entrenado con una función de recompensa que prioriza tanto la precisión como el formato de salida consistente. Una innovación clave es una penalización por “pensar demasiado”, desalentando secuencias de razonamiento excesivamente largas que inflan los costos y ralentizan las respuestas.
Ventajas prácticas para las empresas
Según el coautor Kaichen Zhang, OpenMMReasoner ofrece varios beneficios a las empresas que buscan alternativas a los grandes sistemas propietarios:
- Implementación local: Se pueden implementar modelos más pequeños en las instalaciones, lo que reduce la latencia y los problemas de control de datos.
- Reducción de costos: Las cadenas de razonamiento más cortas reducen los costos simbólicos asociados con el procesamiento.
- Control total: Las empresas mantienen un control total sobre sus datos y pueden ajustar el modelo para tareas específicas.
“Para las empresas con datos limitados de dominios específicos, una estrategia factible es aumentar primero la diversidad de respuestas para su conjunto de datos existente y luego utilizar la combinación de dominios para integrar estos datos de dominio en una receta de razonamiento general como la nuestra”, explicó Zhang.
Razonamiento y transferibilidad mejorados
La receta OpenMMReasoner se utilizó para ajustar el modelo de lenguaje de visión de código abierto Qwen2.5-VL-7B-Instruct, lo que dio como resultado un sistema altamente capaz que supera a los métodos de última generación en puntos de referencia de razonamiento multimodal (WeMath, MathVerse, MathVista). En particular, el marco muestra una “emergencia gradual de comportamientos de razonamiento textual”, lo que sugiere que las habilidades aprendidas de tareas multimodales pueden transferirse a dominios puramente lingüísticos. Esto implica que fortalecer el razonamiento en una modalidad mejora el desempeño en otras.
Los investigadores también destacan la importancia de la eficiencia de los tokens: limitar el “presupuesto de razonamiento” puede lograr una precisión comparable o incluso mejor al tiempo que se reducen los costos computacionales.
Este marco eficiente cambia fundamentalmente la confiabilidad con la que la IA llega a sus conclusiones: los modelos tradicionales “saltan” a las respuestas, mientras que OpenMMReasoner obliga a un examen más profundo de los pasos intermedios, asegurando la coherencia interna.
El marco OpenMMReasoner representa un importante paso adelante en el razonamiento de IA accesible, transparente y eficiente, ofreciendo un camino práctico para las empresas que buscan aprovechar la inteligencia multimodal sin depender de sistemas masivos de código cerrado.





























