OpenMMReasoner: Nowa platforma do wydajnego multimodalnego rozumowania AI

16

Naukowcy wprowadzili nową metodę uczenia się o nazwie OpenMMReasoner, zaprojektowaną w celu poprawy zdolności rozumowania sztucznej inteligencji podczas pracy zarówno z danymi tekstowymi, jak i wizualnymi. Platforma zapewnia wysoką wydajność na mniejszych, wyselekcjonowanych zbiorach danych, oferując bardziej praktyczną alternatywę dla ogromnych modeli typu zamkniętego.

Problem rozumowania multimodalnego

Niedawne postępy w uczeniu się przez wzmacnianie pokazały, że duże modele językowe (LLM) mogą znacznie poprawić umiejętności rozumowania, jeśli poinstruowano ich, aby wyjaśnili swoje myślenie przed udzieleniem odpowiedzi. Podejście to, znane jako rozumowanie oparte na łańcuchu myśli (CoT), naśladuje rozwiązywanie problemów przez człowieka. Obecnie tę samą zasadę stosuje się do modeli multimodalnych, które przetwarzają zarówno tekst, jak i obrazy, poprawiając ich zdolność do rozwiązywania złożonych problemów w wielu formatach.

Jednak w tej dziedzinie brakuje przejrzystości: wiele badań nie dostarcza szczegółowych informacji na temat procedur gromadzenia danych i szkolenia, co utrudnia powtarzalność i głębsze zrozumienie działania tych modeli. OpenMMReasoner bezpośrednio rozwiązuje ten problem, zapewniając w pełni przejrzyste i skalowalne środowisko edukacyjne oparte na otwartym kodzie źródłowym LLM.

Dwuetapowy przepis na trening

OpenMMReasoner stosuje podejście dwuetapowe:

  1. Szkolenie nadzorowane (SFT): W tej początkowej fazie podstawowy model jest udoskonalany przy użyciu starannie wybranego zbioru danych, zwracając szczególną uwagę na różnorodność danych. Naukowcy odkryli, że kluczem do poprawy było zwiększenie różnorodności poprawnych odpowiedzi na to samo pytanie. Proces SFT składa się z trzech etapów:
  2. Zbiór około 103 000 par pytanie-odpowiedź z publicznie dostępnych zbiorów danych.
  3. Korzystanie z modelu o wysokiej wydajności (Qwen3-VL-235B-Instruct) do generowania nowych, wysokiej jakości łańcuchów rozumowania.
  4. Rozszerz zbiór danych do 874 000 przykładów z wieloma zweryfikowanymi łańcuchami rozumowania i mieszania domen (w tym dane dotyczące rozumowania matematycznego).

  5. Uczenie się przez wzmacnianie (RL): W drugim etapie wykorzystuje się mniejszy zbiór danych (74 000 próbek) skupiający się na naukach ścisłych, matematyce i łamigłówkach. Model jest szkolony za pomocą funkcji nagrody, która priorytetowo traktuje zarówno dokładność, jak i spójne formatowanie wyjściowe. Kluczową nową funkcją jest kara za „przesadne myślenie”, która zniechęca do stosowania zbyt długich sekwencji rozumowania, które zwiększają koszty i spowalniają reakcje.

Praktyczne korzyści dla biznesu

Według współautora Kaichena Zhanga OpenMMReasoner zapewnia kilka korzyści firmom poszukującym alternatywy dla dużych, zastrzeżonych systemów:

  • Wdrożenie lokalne: Mniejsze modele można wdrażać lokalnie, redukując opóźnienia i problemy związane z kontrolą danych.
  • Obniżone koszty: Krótsze łańcuchy rozumowania zmniejszają koszty przetwarzania tokenów.
  • Pełna kontrola: Przedsiębiorstwa zachowują pełną kontrolę nad swoimi danymi i mogą dostosować model do konkretnych zadań.

„W przypadku firm dysponujących ograniczoną liczbą danych dotyczących konkretnej domeny realną strategią jest najpierw zwiększenie różnorodności odpowiedzi w ramach istniejącego zbioru danych, a następnie zastosowanie łączenia domen w celu zintegrowania danych z domeny w ramach ogólnego przepisu rozumowania, takiego jak nasz” – wyjaśnił Zhang.

Lepsze rozumowanie i przenośność

Receptę OpenMMReasoner wykorzystano do udoskonalenia modelu Qwen2.5-VL-7B-Instruct o otwartym kodzie źródłowym, w wyniku czego powstał wysoce wydajny system, który przewyższa najnowocześniejsze metody rozwiązywania problemów wnioskowania multimodalnego (WeMath, MathVerse, MathVista). W szczególności platforma demonstruje „stopniowe pojawianie się rozumowania opartego na tekście”, co wskazuje, że umiejętności nabyte w zadaniach multimodalnych można przenieść do dziedzin czysto językowych. Oznacza to, że wzmocnienie rozumowania w jednej modalności poprawia wydajność w innych.

Naukowcy podkreślają również znaczenie wydajności tokenów: ograniczenie „budżetu rozumowania” może zapewnić porównywalną lub nawet lepszą dokładność przy jednoczesnym obniżeniu kosztów obliczeniowych.

Ta potężna struktura zasadniczo zmienia sposób, w jaki sztuczna inteligencja wyciąga wnioski: tradycyjne modele „przeskakują” do odpowiedzi, podczas gdy OpenMMReasoner wymusza głębszą eksplorację kroków pośrednich, zapewniając wewnętrzną spójność.

Platforma OpenMMReasoner stanowi znaczący krok naprzód w dostępnym, przejrzystym i wydajnym rozumowaniu AI, oferując praktyczną ścieżkę dla firm, które chcą wykorzystać inteligencję multimodalną bez polegania na ogromnych zamkniętych systemach.