I ricercatori hanno svelato un nuovo metodo di formazione, OpenMMReasoner, progettato per migliorare le capacità di ragionamento dei sistemi di intelligenza artificiale che gestiscono sia dati testuali che visivi. Questo framework si distingue per il raggiungimento di ottime prestazioni utilizzando set di dati più piccoli e attentamente curati, offrendo un’alternativa più pratica ai massicci modelli closed-source.
La sfida del ragionamento multimodale
Recenti scoperte nell’apprendimento per rinforzo hanno dimostrato che i modelli linguistici di grandi dimensioni (LLM) possono migliorare significativamente le capacità di ragionamento se guidati a spiegare i propri processi mentali prima di fornire una risposta. Questo approccio, noto come ragionamento basato sulla catena di pensiero (CoT), imita la risoluzione dei problemi umani. Lo stesso principio si applica ora ai modelli multimodali, che gestiscono sia testo che immagini, migliorando la loro capacità di affrontare compiti complessi in più formati.
Tuttavia, il campo è mancato di trasparenza: molti studi non riescono a dettagliare le procedure di data curation e training, ostacolando la riproducibilità e una comprensione più profonda di come funzionano questi modelli. OpenMMReasoner affronta direttamente questo problema fornendo un processo di formazione completamente trasparente e scalabile basato su LLM open source.
Una ricetta di allenamento in due fasi
OpenMMReasoner utilizza un approccio in due fasi:
- Supervisioned Fine-Tuning (SFT): questa fase iniziale perfeziona un modello di base utilizzando un set di dati curato, enfatizzando la diversità dei dati. I ricercatori hanno scoperto che aumentare la varietà di risposte corrette per la stessa domanda era fondamentale per il miglioramento. La pipeline SFT prevede tre fasi:
- Raccolta di circa 103.000 coppie domanda-risposta da set di dati pubblici.
- Utilizzando un modello ad alte prestazioni (Qwen3-VL-235B-Instruct) per generare nuove tracce di ragionamento di alta qualità.
-
Espansione del set di dati a 874.000 esempi attraverso più tracce di ragionamento verificate e miscelazione di domini (compresi i dati di ragionamento matematico).
-
Apprendimento per rinforzo (RL): la seconda fase utilizza un set di dati più piccolo (74.000 campioni) incentrato su scienze, matematica ed enigmi. Il modello viene addestrato con una funzione di ricompensa che dà priorità sia alla precisione che alla formattazione coerente dell’output. Un’innovazione chiave è una penalità per il “pensiero eccessivo”, che scoraggia sequenze di ragionamento eccessivamente lunghe che gonfiano i costi e rallentano le risposte.
Vantaggi pratici per le imprese
Secondo il coautore Kaichen Zhang, OpenMMReasoner offre numerosi vantaggi alle aziende che cercano alternative ai grandi sistemi proprietari:
- Distribuzione locale: i modelli più piccoli possono essere distribuiti on-premise, riducendo i problemi di latenza e di controllo dei dati.
- Riduzione dei costi: Catene di ragionamento più brevi riducono i costi dei token associati all’elaborazione.
- Controllo completo: le aziende mantengono il controllo completo sui propri dati e possono ottimizzare il modello per attività specifiche.
“Per le aziende con dati limitati specifici del dominio, una strategia fattibile è innanzitutto aumentare la diversità delle risposte per il loro set di dati esistente, quindi utilizzare la combinazione di domini per integrare questi dati di dominio in una ricetta di ragionamento generale come la nostra”, ha spiegato Zhang.
Ragionamento e trasferibilità migliorati
La ricetta OpenMMReasoner è stata utilizzata per mettere a punto il modello di linguaggio di visione open source Qwen2.5-VL-7B-Instruct, risultando in un sistema altamente capace che supera i metodi all’avanguardia sui benchmark di ragionamento multimodale (WeMath, MathVerse, MathVista). In particolare, il quadro mostra una “graduale emergenza di comportamenti di ragionamento testuale”, suggerendo che le competenze apprese da compiti multimodali possono trasferirsi in domini puramente linguistici. Ciò implica che il rafforzamento del ragionamento in una modalità migliora le prestazioni in altre.
I ricercatori evidenziano anche l’importanza dell’efficienza dei token: limitando il “budget di ragionamento” si può ottenere una precisione paragonabile o addirittura migliore riducendo al tempo stesso i costi computazionali.
Questo quadro efficiente cambia radicalmente il modo in cui l’intelligenza artificiale arriva alle sue conclusioni in modo affidabile: i modelli tradizionali “saltano” alle risposte, mentre OpenMMReasoner impone un esame più approfondito dei passaggi intermedi, garantendo coerenza interna.
Il framework OpenMMReasoner rappresenta un significativo passo avanti nel ragionamento basato sull’intelligenza artificiale accessibile, trasparente ed efficiente, offrendo un percorso pratico per le aziende che cercano di sfruttare l’intelligenza multimodale senza fare affidamento su massicci sistemi closed-source.





























