Les chercheurs ont dévoilé une nouvelle méthode de formation, OpenMMReasoner, conçue pour améliorer les capacités de raisonnement des systèmes d’intelligence artificielle traitant à la fois des données textuelles et visuelles. Ce cadre se distingue par l’obtention de solides performances en utilisant des ensembles de données plus petits et soigneusement sélectionnés, offrant une alternative plus pratique aux modèles massifs et à source fermée.
Le défi du raisonnement multimodal
Des percées récentes dans l’apprentissage par renforcement ont démontré que les grands modèles de langage (LLM) peuvent améliorer considérablement les capacités de raisonnement lorsqu’ils sont guidés pour expliquer leurs processus de pensée avant de fournir une réponse. Cette approche, connue sous le nom de raisonnement en chaîne de pensée (CoT), imite la résolution de problèmes humaine. Le même principe s’applique désormais aux modèles multimodaux, qui gèrent à la fois le texte et les images, améliorant ainsi leur capacité à aborder des tâches complexes dans plusieurs formats.
Cependant, le domaine a manqué de transparence : de nombreuses études ne détaillent pas leurs procédures de conservation et de formation des données, ce qui entrave la reproductibilité et une compréhension plus approfondie du fonctionnement de ces modèles. OpenMMReasoner résout directement ce problème en fournissant un processus de formation entièrement transparent et évolutif basé sur des LLM open source.
Une recette de formation en deux étapes
OpenMMReasoner utilise une approche en deux étapes :
- Réglage fin supervisé (SFT) : Cette phase initiale affine un modèle de base à l’aide d’un ensemble de données organisé, en mettant l’accent sur la diversité des données. Les chercheurs ont découvert que l’augmentation de la variété des réponses correctes à une même question était la clé de l’amélioration. Le pipeline SFT comprend trois étapes :
- Collecte d’environ 103 000 paires de questions-réponses à partir d’ensembles de données publics.
- Utilisation d’un modèle haute performance (Qwen3-VL-235B-Instruct) pour générer de nouvelles traces de raisonnement de haute qualité.
-
Extension de l’ensemble de données à 874 000 exemples grâce à plusieurs traces de raisonnement vérifiées et à un mélange de domaines (y compris des données de raisonnement mathématique).
-
Apprentissage par renforcement (RL) : La deuxième étape utilise un ensemble de données plus petit (74 000 échantillons) axé sur les sciences, les mathématiques et les énigmes. Le modèle est entraîné avec une fonction de récompense qui donne la priorité à la précision et au formatage de sortie cohérent. Une innovation clé est une pénalité pour « réflexion excessive », décourageant les séquences de raisonnement trop longues qui gonflent les coûts et ralentissent les réponses.
Avantages pratiques pour les entreprises
Selon le co-auteur Kaichen Zhang, OpenMMReasoner offre plusieurs avantages aux entreprises qui recherchent des alternatives aux grands systèmes propriétaires :
- Déploiement local : des modèles plus petits peuvent être déployés sur site, réduisant ainsi les problèmes de latence et de contrôle des données.
- Réduction des coûts : Des chaînes de raisonnement plus courtes réduisent les coûts de jetons associés au traitement.
- Contrôle total : les entreprises conservent un contrôle total sur leurs données et peuvent affiner le modèle pour des tâches spécifiques.
« Pour les entreprises disposant de données spécifiques à un domaine limitées, une stratégie réalisable consiste d’abord à augmenter la diversité des réponses pour leur ensemble de données existant, puis à utiliser le mélange de domaines pour intégrer ces données de domaine dans une recette de raisonnement général comme la nôtre », a expliqué Zhang.
Raisonnement et transférabilité améliorés
La recette OpenMMReasoner a été utilisée pour affiner le modèle de langage de vision open source Qwen2.5-VL-7B-Instruct, ce qui a donné lieu à un système hautement performant qui surpasse les méthodes de pointe sur les tests de raisonnement multimodal (WeMath, MathVerse, MathVista). Notamment, le cadre présente une « émergence progressive de comportements de raisonnement textuel », suggérant que les compétences acquises lors de tâches multimodales peuvent être transférées à des domaines purement linguistiques. Cela implique que le renforcement du raisonnement dans une modalité améliore les performances dans d’autres.
Les chercheurs soulignent également l’importance de l’efficacité des jetons : limiter le « budget de raisonnement » peut permettre d’obtenir une précision comparable, voire meilleure, tout en réduisant les coûts de calcul.
Ce cadre efficace change fondamentalement la fiabilité avec laquelle l’IA arrive à ses conclusions : les modèles traditionnels « sautent » aux réponses, tandis qu’OpenMMReasoner impose un examen plus approfondi des étapes intermédiaires, garantissant ainsi la cohérence interne.
Le framework OpenMMReasoner représente une avancée significative dans le raisonnement de l’IA accessible, transparent et efficace, offrant une voie pratique aux entreprises cherchant à tirer parti de l’intelligence multimodale sans s’appuyer sur des systèmes massifs et fermés.






























