Vědci představili novou metodu učení nazvanou OpenMMReasoner, která má zlepšit schopnost umělé inteligence uvažovat při práci s textovými i vizuálními daty. Platforma poskytuje vysoký výkon na menších, spravovaných souborech dat a nabízí praktičtější alternativu k obrovským modelům uzavřeného typu.
Problém multimodálního uvažování
Nedávné pokroky v posilování učení ukázaly, že velké jazykové modely (LLM) mohou výrazně zlepšit schopnosti uvažování, když jsou instruovány, aby vysvětlily své myšlení před poskytnutím odpovědi. Tento přístup, známý jako uvažování řetězcem myšlení (CoT), napodobuje řešení lidských problémů. Nyní je stejný princip aplikován na multimodální modely, které zpracovávají text i obrázky, což zlepšuje jejich schopnost řešit složité problémy napříč různými formáty.
V této oblasti však chybí transparentnost: mnoho studií neposkytuje podrobnosti o správě dat a školicích postupech, což brání reprodukovatelnosti a hlubšímu pochopení toho, jak tyto modely fungují. OpenMMReasoner přímo řeší tento problém tím, že poskytuje plně transparentní a škálovatelné výukové prostředí založené na open source LLM.
Dvoukrokový tréninkový recept
OpenMMReasoner používá dvoustupňový přístup:
- Supervised Training (SFT): V této počáteční fázi je základní model upřesněn pomocí pečlivě vybraného souboru dat, přičemž zvláštní pozornost je věnována diverzitě dat. Vědci zjistili, že zvýšení rozmanitosti správných odpovědí na stejnou otázku bylo klíčem ke zlepšení. Proces SFT zahrnuje tři kroky:
- Sbírka přibližně 103 000 párů otázek a odpovědí z veřejně dostupných datových souborů.
- Použití vysoce výkonného modelu (Qwen3-VL-235B-Instruct) ke generování nových, vysoce kvalitních uvažovacích řetězců.
-
Rozšiřte datovou sadu na 874 000 příkladů s několika ověřenými řetězci uvažování a míchání domén (včetně dat matematického uvažování).
-
Reinforcement Learning (RL): Druhá fáze využívá menší datový soubor (74 000 vzorků) zaměřený na přírodní vědy, matematiku a hádanky. Model je trénován pomocí funkce odměňování, která upřednostňuje přesnost a konzistentní výstupní formátování. Klíčovou novinkou je postih za “přemýšlení”, který odrazuje od příliš dlouhých sekvencí uvažování, které zvyšují náklady a zpomalují reakce.
Praktické výhody pro podnikání
Podle spoluautora Kaichena Zhanga poskytuje OpenMMReasoner několik výhod společnostem, které hledají alternativu k velkým proprietárním systémům:
- Místní nasazení: Menší modely lze nasadit lokálně, čímž se sníží latence a problémy s řízením dat.
- Snížené náklady: Kratší uvažovací řetězce snižují náklady na zpracování tokenů.
- Plná kontrola: Podniky si uchovávají plnou kontrolu nad svými daty a mohou model doladit pro konkrétní úkoly.
„Pro společnosti s omezenými daty pro konkrétní domény je životaschopnou strategií nejprve zvýšit rozmanitost odpovědí pro jejich stávající soubor dat a poté použít prolínání domén k integraci těchto doménových dat do obecného uvažovacího receptu, jako je ten náš,“ vysvětlil Zhang.
Vylepšené uvažování a přenositelnost
Recept OpenMMReasoner byl použit k upřesnění modelu Qwen2.5-VL-7B-Instruct s otevřeným zdrojovým kódem, což vedlo k vysoce účinnému systému, který překonává nejmodernější metody v problémech s multimodálním uvažováním (WeMath, MathVerse, MathVista). Je pozoruhodné, že platforma demonstruje „postupný vznik textového uvažování“, což naznačuje, že dovednosti získané z multimodálních úkolů lze přenést do čistě jazykových oblastí. Z toho vyplývá, že posílení uvažování v jedné modalitě zlepšuje výkon v jiných.
Výzkumníci také zdůrazňují důležitost efektivity tokenů: omezením „rozpočtového rozpočtu“ lze dosáhnout srovnatelné nebo dokonce lepší přesnosti a zároveň snížit výpočetní náklady.
Tento výkonný rámec zásadně mění, jak spolehlivě AI dosahuje svých závěrů: tradiční modely „skočí“ k odpovědím, zatímco OpenMMReasoner nutí k hlubšímu zkoumání mezikroků a zajišťuje vnitřní konzistenci.
Platforma OpenMMReasoner představuje významný krok vpřed v přístupném, transparentním a efektivním uvažování AI a nabízí praktickou cestu pro podniky, které chtějí využít multimodální inteligenci, aniž by se spoléhaly na obrovské uzavřené systémy.




























