OpenMMReasoner: uma nova estrutura para raciocínio de IA multimodal eficiente

20

Pesquisadores revelaram um novo método de treinamento, OpenMMReasoner, projetado para aprimorar as capacidades de raciocínio de sistemas de inteligência artificial que lidam com dados textuais e visuais. Esta estrutura se destaca por alcançar forte desempenho usando conjuntos de dados menores e cuidadosamente selecionados, oferecendo uma alternativa mais prática aos modelos massivos de código fechado.

O Desafio do Raciocínio Multimodal

Avanços recentes na aprendizagem por reforço demonstraram que grandes modelos de linguagem (LLMs) podem melhorar significativamente as habilidades de raciocínio quando orientados a explicar seus processos de pensamento antes de fornecer uma resposta. Essa abordagem, conhecida como raciocínio de cadeia de pensamento (CoT), imita a resolução humana de problemas. O mesmo princípio aplica-se agora aos modelos multimodais, que lidam com texto e imagens, melhorando a sua capacidade de lidar com tarefas complexas em múltiplos formatos.

No entanto, falta transparência ao campo: muitos estudos não detalham a curadoria de dados e os procedimentos de treinamento, dificultando a reprodutibilidade e uma compreensão mais profunda de como esses modelos funcionam. OpenMMReasoner aborda diretamente esse problema, fornecendo um processo de treinamento totalmente transparente e escalonável baseado em LLMs de código aberto.

Uma receita de treinamento em duas etapas

OpenMMReasoner utiliza uma abordagem em dois estágios:

  1. Ajuste fino supervisionado (SFT): Esta fase inicial refina um modelo básico usando um conjunto de dados selecionado, enfatizando a diversidade de dados. Os pesquisadores descobriram que aumentar a variedade de respostas corretas para a mesma pergunta era fundamental para a melhoria. O pipeline SFT envolve três etapas:
  2. Coleta de aproximadamente 103.000 pares de perguntas e respostas de conjuntos de dados públicos.
  3. Usando um modelo de alto desempenho (Qwen3-VL-235B-Instruct) para gerar novos traços de raciocínio de alta qualidade.
  4. Expandindo o conjunto de dados para 874.000 exemplos por meio de vários traços de raciocínio verificados e mistura de domínios (incluindo dados de raciocínio matemático).

  5. Aprendizagem por Reforço (RL): O segundo estágio emprega um conjunto de dados menor (74.000 amostras) focado em ciências, matemática e quebra-cabeças. O modelo é treinado com uma função de recompensa que prioriza a precisão e a formatação de saída consistente. Uma inovação importante é uma penalidade por “pensar demais”, desencorajando sequências de raciocínio excessivamente longas que inflacionam os custos e retardam as respostas.

Vantagens práticas para empresas

De acordo com o coautor Kaichen Zhang, o OpenMMReasoner oferece vários benefícios para empresas que buscam alternativas para grandes sistemas proprietários:

  • Implantação local: Modelos menores podem ser implantados no local, reduzindo a latência e as preocupações com o controle de dados.
  • Redução de custos: Cadeias de raciocínio mais curtas reduzem os custos de token associados ao processamento.
  • Controle total: as empresas mantêm controle total sobre seus dados e podem ajustar o modelo para tarefas específicas.

“Para empresas com dados limitados de domínios específicos, uma estratégia viável é primeiro aumentar a diversidade de respostas para seu conjunto de dados existente e, em seguida, usar a mistura de domínios para integrar esses dados de domínio em uma receita de raciocínio geral como a nossa”, explicou Zhang.

Raciocínio e transferibilidade aprimorados

A receita OpenMMReasoner foi usada para ajustar o modelo de linguagem de visão de código aberto Qwen2.5-VL-7B-Instruct, resultando em um sistema altamente capaz que supera métodos de última geração em benchmarks de raciocínio multimodal (WeMath, MathVerse, MathVista). Notavelmente, a estrutura exibe uma “emergência gradual de comportamentos de raciocínio textual”, sugerindo que as habilidades aprendidas em tarefas multimodais podem ser transferidas para domínios puramente linguísticos. Isto implica que o fortalecimento do raciocínio em uma modalidade melhora o desempenho em outras.

Os pesquisadores também destacam a importância da eficiência dos tokens: limitar o “orçamento de raciocínio” pode alcançar uma precisão comparável ou até melhor, ao mesmo tempo que reduz os custos computacionais.

Essa estrutura eficiente muda fundamentalmente a confiabilidade com que a IA chega às suas conclusões: os modelos tradicionais “saltam” para as respostas, enquanto o OpenMMReasoner força um exame mais profundo das etapas intermediárias, garantindo a consistência interna.

A estrutura OpenMMReasoner representa um avanço significativo no raciocínio de IA acessível, transparente e eficiente, oferecendo um caminho prático para empresas que buscam aproveitar a inteligência multimodal sem depender de sistemas massivos e de código fechado.