OpenMMReasoner: Новая платформа для эффективного многомодального ИИ-рассуждения

3

Исследователи представили новый метод обучения под названием OpenMMReasoner, разработанный для повышения способности искусственного интеллекта к рассуждениям при работе как с текстом, так и с визуальными данными. Эта платформа отличается высокой производительностью при использовании меньших, тщательно подобранных наборов данных, предлагая более практичную альтернативу огромным моделям закрытого типа.

Проблема многомодального рассуждения

Недавние достижения в области обучения с подкреплением показали, что большие языковые модели (LLM) могут значительно улучшить навыки рассуждения, когда им предписывается объяснять ход своих мыслей перед предоставлением ответа. Этот подход, известный как рассуждение в стиле «цепочки мыслей» (CoT), имитирует человеческое решение проблем. Теперь тот же принцип применяется к многомодальным моделям, которые обрабатывают как текст, так и изображения, улучшая их способность решать сложные задачи в различных форматах.

Однако в этой области наблюдается недостаток прозрачности: многие исследования не приводят подробностей о курации данных и процедурах обучения, что препятствует воспроизводимости и более глубокому пониманию того, как работают эти модели. OpenMMReasoner напрямую решает эту проблему, предоставляя полностью прозрачный и масштабируемый процесс обучения, основанный на LLM с открытым исходным кодом.

Двухэтапный рецепт обучения

OpenMMReasoner использует двухэтапный подход:

  1. Обучение с учителем (SFT): На этом начальном этапе базовая модель уточняется с использованием тщательно подобранного набора данных, уделяя особое внимание разнообразию данных. Исследователи обнаружили, что увеличение разнообразия правильных ответов на один и тот же вопрос было ключом к улучшению. Процесс SFT включает в себя три этапа:

    • Сбор примерно 103 000 пар вопросов и ответов из общедоступных наборов данных.
    • Использование высокопроизводительной модели (Qwen3-VL-235B-Instruct) для генерации новых, высококачественных цепочек рассуждений.
    • Расширение набора данных до 874 000 примеров за счет множества проверенных цепочек рассуждений и смешивания областей (включая данные математического рассуждения).
  2. Обучение с подкреплением (RL): На втором этапе используется меньший набор данных (74 000 образцов), ориентированный на науку, математику и головоломки. Модель обучается с функцией вознаграждения, которая приоритизирует как точность, так и согласованное форматирование вывода. Ключевым нововведением является штраф за «излишние размышления», который препятствует чрезмерно длинным последовательностям рассуждений, увеличивающим затраты и замедляющим ответы.

Практические преимущества для бизнеса

По словам соавтора Кайчена Чжана, OpenMMReasoner предоставляет несколько преимуществ компаниям, стремящимся к альтернативе большим проприетарным системам:

  • Локальное развертывание: Меньшие модели можно развертывать локально, снижая задержку и опасения по поводу контроля данных.
  • Снижение затрат: Более короткие цепочки рассуждений снижают затраты на токены, связанные с обработкой.
  • Полный контроль: Предприятия сохраняют полный контроль над своими данными и могут точно настроить модель для конкретных задач.

«Для компаний с ограниченными специфическими данными, целесообразная стратегия — сначала увеличить разнообразие ответов для их существующего набора данных, а затем использовать смешивание областей, чтобы интегрировать эти доменные данные в общий рецепт рассуждений, такой как наш», — пояснил Чжан.

Улучшенное рассуждение и переносимость

Рецепт OpenMMReasoner был использован для уточнения модели Qwen2.5-VL-7B-Instruct с открытым исходным кодом, в результате чего получилась высокоэффективная система, превосходящая современные методы в задачах многомодального рассуждения (WeMath, MathVerse, MathVista). Примечательно, что платформа демонстрирует «постепенное появление текстовых рассуждений», что указывает на то, что навыки, полученные из многомодальных задач, могут переноситься в чисто лингвистические области. Это подразумевает, что укрепление рассуждений в одной модальности повышает производительность в других.

Исследователи также подчеркивают важность эффективности токенов: ограничение «бюджета рассуждений» может достичь сопоставимой или даже лучшей точности, одновременно снижая вычислительные затраты.

Этот эффективный фреймворк принципиально меняет то, как надежно ИИ приходит к своим выводам: традиционные модели «прыгают» к ответам, в то время как OpenMMReasoner заставляет глубже изучать промежуточные шаги, обеспечивая внутреннюю согласованность.

Платформа OpenMMReasoner представляет собой значительный шаг вперед в доступном, прозрачном и эффективном ИИ-рассуждении, предлагая практический путь для бизнеса, стремящегося использовать многомодальный интеллект, не полагаясь на огромные системы закрытого типа.