Onderzoekers hebben een nieuwe trainingsmethode onthuld, OpenMMReasoner, ontworpen om de redeneermogelijkheden van kunstmatige-intelligentiesystemen die zowel met tekst als met visuele gegevens omgaan, te verbeteren. Dit raamwerk onderscheidt zich door het behalen van sterke prestaties met behulp van kleinere, zorgvuldig samengestelde datasets, en biedt een praktischer alternatief voor enorme, gesloten-bronmodellen.
De uitdaging van multimodaal redeneren
Recente doorbraken op het gebied van versterkend leren hebben aangetoond dat grote taalmodellen (LLM’s) de redeneervaardigheden aanzienlijk kunnen verbeteren wanneer ze worden begeleid om hun denkprocessen uit te leggen voordat ze een antwoord geven. Deze benadering, bekend als Chain-of-Thought (CoT)-redenering, bootst het oplossen van menselijke problemen na. Hetzelfde principe is nu van toepassing op multimodale modellen, die zowel tekst als afbeeldingen verwerken, waardoor ze beter in staat zijn complexe taken in meerdere formaten aan te pakken.
Het veld heeft echter een gebrek aan transparantie: veel onderzoeken slagen er niet in om hun datacuratie- en trainingsprocedures in detail te beschrijven, wat de reproduceerbaarheid en een dieper begrip van hoe deze modellen functioneren belemmert. OpenMMReasoner pakt dit probleem rechtstreeks aan door een volledig transparant en schaalbaar trainingsproces te bieden, gebouwd op open-source LLM’s.
Een trainingsrecept in twee fasen
OpenMMReasoner maakt gebruik van een aanpak in twee fasen:
- Supervised Fine-Tuning (SFT): Deze eerste fase verfijnt een basismodel met behulp van een samengestelde dataset, waarbij datadiversiteit wordt benadrukt. Onderzoekers ontdekten dat het vergroten van de verscheidenheid aan juiste antwoorden op dezelfde vraag de sleutel tot verbetering was. De SFT-pijplijn omvat drie stappen:
- Ongeveer 103.000 vraag-antwoordparen verzamelen uit openbare datasets.
- Gebruik van een krachtig model (Qwen3-VL-235B-Instruct) om nieuwe, hoogwaardige redeneersporen te genereren.
-
Uitbreiding van de dataset naar 874.000 voorbeelden via meerdere geverifieerde redeneersporen en domeinvermenging (inclusief wiskundige redeneergegevens).
-
Reinforcement Learning (RL): De tweede fase maakt gebruik van een kleinere dataset (74.000 voorbeelden) gericht op wetenschap, wiskunde en puzzels. Het model is getraind met een beloningsfunctie die prioriteit geeft aan zowel nauwkeurigheid als consistente uitvoeropmaak. Een belangrijke innovatie is een boete voor ‘overdenken’, het ontmoedigen van buitensporig lange redeneerreeksen die de kosten opdrijven en de reacties vertragen.
Praktische voordelen voor bedrijven
Volgens co-auteur Kaichen Zhang biedt OpenMMReasoner verschillende voordelen voor bedrijven die op zoek zijn naar alternatieven voor grote, propriëtaire systemen:
- Lokale implementatie: Kleinere modellen kunnen op locatie worden geïmplementeerd, waardoor de zorgen over latentie en gegevenscontrole worden verminderd.
- Kostenreductie: Kortere redeneerketens verlagen de symbolische kosten die aan de verwerking zijn verbonden.
- Volledige controle: Bedrijven behouden de volledige controle over hun gegevens en kunnen het model verfijnen voor specifieke taken.
“Voor bedrijven met beperkte domeinspecifieke gegevens is een haalbare strategie om eerst de antwoorddiversiteit voor hun bestaande dataset te vergroten en vervolgens domeinmixing te gebruiken om deze domeingegevens te integreren in een algemeen redeneerrecept zoals het onze”, legt Zhang uit.
Verbeterde redenering en overdraagbaarheid
Het OpenMMReasoner-recept werd gebruikt om het Qwen2.5-VL-7B-Instruct open-source vision-taalmodel te verfijnen, resulterend in een zeer capabel systeem dat beter presteert dan de modernste methoden op het gebied van multimodale redeneerbenchmarks (WeMath, MathVerse, MathVista). Het raamwerk vertoont met name een ‘geleidelijke opkomst van tekstueel redeneergedrag’, wat suggereert dat vaardigheden die zijn geleerd uit multimodale taken kunnen worden overgedragen naar puur taalkundige domeinen. Dit impliceert dat het versterken van het redeneren in de ene modaliteit de prestaties in andere modaliteit verbetert.
De onderzoekers benadrukken ook het belang van token-efficiëntie: het beperken van het ‘redeneerbudget’ kan een vergelijkbare of zelfs betere nauwkeurigheid bereiken en tegelijkertijd de rekenkosten verlagen.
Dit efficiënte raamwerk verandert fundamenteel hoe betrouwbaar AI tot haar conclusies komt: traditionele modellen ‘springen’ naar antwoorden, terwijl OpenMMReasoner een dieper onderzoek van tussenstappen afdwingt, waardoor interne consistentie wordt gewaarborgd.
Het OpenMMReasoner-framework vertegenwoordigt een belangrijke stap voorwaarts in toegankelijk, transparant en efficiënt AI-denken en biedt een praktisch pad voor bedrijven die multimodale intelligentie willen benutten zonder afhankelijk te zijn van enorme, gesloten bronsystemen.






























