Pesquisadores revelaram um novo método de treinamento, OpenMMReasoner, projetado para aprimorar as capacidades de raciocínio de sistemas de inteligência artificial que lidam com dados textuais e visuais. Esta estrutura se destaca por alcançar forte desempenho usando conjuntos de dados menores e cuidadosamente selecionados, oferecendo uma alternativa mais prática aos modelos massivos de código fechado.
O Desafio do Raciocínio Multimodal
Avanços recentes na aprendizagem por reforço demonstraram que grandes modelos de linguagem (LLMs) podem melhorar significativamente as habilidades de raciocínio quando orientados a explicar seus processos de pensamento antes de fornecer uma resposta. Essa abordagem, conhecida como raciocínio de cadeia de pensamento (CoT), imita a resolução humana de problemas. O mesmo princípio aplica-se agora aos modelos multimodais, que lidam com texto e imagens, melhorando a sua capacidade de lidar com tarefas complexas em múltiplos formatos.
No entanto, falta transparência ao campo: muitos estudos não detalham a curadoria de dados e os procedimentos de treinamento, dificultando a reprodutibilidade e uma compreensão mais profunda de como esses modelos funcionam. OpenMMReasoner aborda diretamente esse problema, fornecendo um processo de treinamento totalmente transparente e escalonável baseado em LLMs de código aberto.
Uma receita de treinamento em duas etapas
OpenMMReasoner utiliza uma abordagem em dois estágios:
- Ajuste fino supervisionado (SFT): Esta fase inicial refina um modelo básico usando um conjunto de dados selecionado, enfatizando a diversidade de dados. Os pesquisadores descobriram que aumentar a variedade de respostas corretas para a mesma pergunta era fundamental para a melhoria. O pipeline SFT envolve três etapas:
- Coleta de aproximadamente 103.000 pares de perguntas e respostas de conjuntos de dados públicos.
- Usando um modelo de alto desempenho (Qwen3-VL-235B-Instruct) para gerar novos traços de raciocínio de alta qualidade.
-
Expandindo o conjunto de dados para 874.000 exemplos por meio de vários traços de raciocínio verificados e mistura de domínios (incluindo dados de raciocínio matemático).
-
Aprendizagem por Reforço (RL): O segundo estágio emprega um conjunto de dados menor (74.000 amostras) focado em ciências, matemática e quebra-cabeças. O modelo é treinado com uma função de recompensa que prioriza a precisão e a formatação de saída consistente. Uma inovação importante é uma penalidade por “pensar demais”, desencorajando sequências de raciocínio excessivamente longas que inflacionam os custos e retardam as respostas.
Vantagens práticas para empresas
De acordo com o coautor Kaichen Zhang, o OpenMMReasoner oferece vários benefícios para empresas que buscam alternativas para grandes sistemas proprietários:
- Implantação local: Modelos menores podem ser implantados no local, reduzindo a latência e as preocupações com o controle de dados.
- Redução de custos: Cadeias de raciocínio mais curtas reduzem os custos de token associados ao processamento.
- Controle total: as empresas mantêm controle total sobre seus dados e podem ajustar o modelo para tarefas específicas.
“Para empresas com dados limitados de domínios específicos, uma estratégia viável é primeiro aumentar a diversidade de respostas para seu conjunto de dados existente e, em seguida, usar a mistura de domínios para integrar esses dados de domínio em uma receita de raciocínio geral como a nossa”, explicou Zhang.
Raciocínio e transferibilidade aprimorados
A receita OpenMMReasoner foi usada para ajustar o modelo de linguagem de visão de código aberto Qwen2.5-VL-7B-Instruct, resultando em um sistema altamente capaz que supera métodos de última geração em benchmarks de raciocínio multimodal (WeMath, MathVerse, MathVista). Notavelmente, a estrutura exibe uma “emergência gradual de comportamentos de raciocínio textual”, sugerindo que as habilidades aprendidas em tarefas multimodais podem ser transferidas para domínios puramente linguísticos. Isto implica que o fortalecimento do raciocínio em uma modalidade melhora o desempenho em outras.
Os pesquisadores também destacam a importância da eficiência dos tokens: limitar o “orçamento de raciocínio” pode alcançar uma precisão comparável ou até melhor, ao mesmo tempo que reduz os custos computacionais.
Essa estrutura eficiente muda fundamentalmente a confiabilidade com que a IA chega às suas conclusões: os modelos tradicionais “saltam” para as respostas, enquanto o OpenMMReasoner força um exame mais profundo das etapas intermediárias, garantindo a consistência interna.
A estrutura OpenMMReasoner representa um avanço significativo no raciocínio de IA acessível, transparente e eficiente, oferecendo um caminho prático para empresas que buscam aproveitar a inteligência multimodal sem depender de sistemas massivos e de código fechado.
