Дослідники представили новий метод навчання під назвою OpenMMReasoner, призначений для покращення здатності штучного інтелекту міркувати під час роботи як з текстовими, так і з візуальними даними. Платформа забезпечує високу продуктивність на менших підібраних наборах даних, пропонуючи більш практичну альтернативу величезним моделям закритого типу.
Проблема мультимодального міркування
Нещодавні досягнення в навчанні з підкріпленням показали, що великі мовні моделі (LLM) можуть значно покращити навички міркування, якщо їм доручено пояснити своє мислення перед наданням відповіді. Цей підхід, відомий як міркування за ланцюгом думок (CoT), імітує людське вирішення проблем. Тепер той самий принцип застосовується до мультимодальних моделей, які обробляють як текст, так і зображення, покращуючи їх здатність вирішувати складні проблеми в різних форматах.
Однак у цій сфері бракує прозорості: багато досліджень не надають подробиць щодо обробки даних і процедур навчання, що перешкоджає відтворюваності та глибшому розумінню того, як ці моделі працюють. OpenMMReasoner безпосередньо вирішує цю проблему, надаючи повністю прозорий і масштабований досвід навчання на основі відкритого коду LLM.
Двоетапний тренувальний рецепт
OpenMMReasoner використовує двоетапний підхід:
- Навчання під керівництвом (SFT): На цьому початковому етапі базова модель уточнюється за допомогою ретельно відібраного набору даних, приділяючи особливу увагу різноманітності даних. Дослідники виявили, що збільшення різноманітності правильних відповідей на те саме запитання є ключовим фактором покращення. Процес SFT складається з трьох етапів:
- Колекція приблизно 103 000 пар запитань-відповідей із загальнодоступних наборів даних.
- Використання високопродуктивної моделі (Qwen3-VL-235B-Instruct) для створення нових високоякісних ланцюжків міркувань.
-
Розширте набір даних до 874 000 прикладів за допомогою кількох перевірених ланцюжків міркувань і змішування доменів (включаючи дані математичних міркувань).
-
Навчання з підкріпленням (RL): На другому етапі використовується менший набір даних (74 000 зразків), зосереджений на науці, математиці та головоломках. Модель навчається за допомогою функції винагороди, яка надає пріоритет як точності, так і узгодженому форматуванню виводу. Ключовою новою функцією є покарання за «надмірне обдумування», яке запобігає надто довгій послідовності міркувань, що збільшує витрати та сповільнює відповіді.
Практична користь для бізнесу
За словами співавтора Кайчена Чжана, OpenMMReasoner надає кілька переваг компаніям, які шукають альтернативу великим пропрієтарним системам:
- Локальне розгортання: Менші моделі можна розгортати локально, зменшуючи затримку та проблеми з контролем даних.
- **Зменшені витрати: ** Коротші ланцюжки міркувань зменшують витрати на обробку токенів.
- Повний контроль: Підприємства зберігають повний контроль над своїми даними та можуть точно налаштувати модель для конкретних завдань.
«Для компаній з обмеженими даними, що стосуються конкретної області, життєздатна стратегія полягає в тому, щоб спочатку збільшити різноманітність відповідей для наявного набору даних, а потім використовувати змішування доменів, щоб інтегрувати ці дані в загальний рецепт міркування, як наш», — пояснив Чжан.
Покращено міркування та портативність
Рецепт OpenMMReasoner використовувався для вдосконалення моделі Qwen2.5-VL-7B-Instruct з відкритим кодом, що призвело до створення високоефективної системи, яка перевершує найсучасніші методи для мультимодальних проблем міркування (WeMath, MathVerse, MathVista). Примітно, що платформа демонструє «поступову появу міркувань на основі тексту», що вказує на те, що навички, отримані під час мультимодальних завдань, можна перенести в суто лінгвістичні сфери. Це означає, що посилення міркувань в одній модальності покращує продуктивність в інших.
Дослідники також підкреслюють важливість ефективності маркерів: обмеження «бюджету обґрунтування» може досягти порівнянної або навіть кращої точності, одночасно зменшуючи обчислювальні витрати.
Ця потужна структура докорінно змінює те, наскільки надійно штучний інтелект робить свої висновки: традиційні моделі «перестрибують» до відповідей, тоді як OpenMMReasoner змушує глибше досліджувати проміжні кроки, забезпечуючи внутрішню узгодженість.
Платформа OpenMMReasoner являє собою значний крок вперед у доступному, прозорому та ефективному розумінні штучного інтелекту, пропонуючи практичний шлях для компаній, які прагнуть використовувати мультимодальний інтелект, не покладаючись на величезні закриті системи.
