OpenMMReasoner: Kerangka Kerja Baru untuk Penalaran AI Multimodal yang Efisien

9

Para peneliti telah meluncurkan metode pelatihan baru, OpenMMReasoner, yang dirancang untuk meningkatkan kemampuan penalaran sistem kecerdasan buatan yang menangani data teks dan visual. Kerangka kerja ini menonjol karena mencapai kinerja yang kuat menggunakan kumpulan data yang lebih kecil dan dikurasi dengan cermat, sehingga menawarkan alternatif yang lebih praktis dibandingkan model sumber tertutup yang masif.

Tantangan Penalaran Multimodal

Terobosan terbaru dalam pembelajaran penguatan telah menunjukkan bahwa model bahasa besar (LLM) dapat secara signifikan meningkatkan keterampilan penalaran ketika dipandu untuk menjelaskan proses berpikir mereka sebelum memberikan jawaban. Pendekatan ini, yang dikenal sebagai penalaran rantai pemikiran (CoT), meniru pemecahan masalah yang dilakukan manusia. Prinsip yang sama kini berlaku pada model multimodal, yang menangani teks dan gambar, sehingga meningkatkan kemampuannya untuk menangani tugas-tugas kompleks dalam berbagai format.

Namun, bidang ini kurang transparan: banyak penelitian gagal merinci kurasi data dan prosedur pelatihannya, sehingga menghambat reproduktifitas dan pemahaman yang lebih mendalam tentang fungsi model-model ini. OpenMMReasoner secara langsung mengatasi masalah ini dengan menyediakan proses pelatihan yang sepenuhnya transparan dan terukur yang dibangun di LLM sumber terbuka.

Resep Pelatihan Dua Tahap

OpenMMReasoner menggunakan pendekatan dua tahap:

  1. Supervised Fine-Tuning (SFT): Fase awal ini menyempurnakan model dasar menggunakan kumpulan data yang dikurasi, dengan menekankan keberagaman data. Para peneliti menemukan bahwa meningkatkan variasi jawaban yang benar untuk pertanyaan yang sama adalah kunci perbaikan. Pipa SFT melibatkan tiga langkah:
  2. Mengumpulkan sekitar 103.000 pasangan tanya jawab dari kumpulan data publik.
  3. Menggunakan model kinerja tinggi (Qwen3-VL-235B-Instruct) untuk menghasilkan jejak penalaran baru yang berkualitas tinggi.
  4. Memperluas kumpulan data menjadi 874.000 contoh melalui beberapa jejak penalaran terverifikasi dan pencampuran domain (termasuk data penalaran matematika).

  5. Reinforcement Learning (RL): Tahap kedua menggunakan kumpulan data yang lebih kecil (74.000 sampel) yang berfokus pada sains, matematika, dan teka-teki. Model ini dilatih dengan fungsi penghargaan yang memprioritaskan akurasi dan format keluaran yang konsisten. Inovasi utama adalah hukuman bagi orang yang “berpikir berlebihan”, yang menghambat rangkaian penalaran yang terlalu panjang sehingga meningkatkan biaya dan memperlambat respons.

Keuntungan Praktis untuk Bisnis

Menurut rekan penulis Kaichen Zhang, OpenMMReasoner memberikan beberapa manfaat bagi perusahaan yang mencari alternatif selain sistem berpemilik yang besar:

  • Penerapan Lokal: Model yang lebih kecil dapat diterapkan di lokasi, sehingga mengurangi masalah latensi dan kontrol data.
  • Pengurangan Biaya: Rantai penalaran yang lebih pendek menurunkan biaya token yang terkait dengan pemrosesan.
  • Kontrol Penuh: Perusahaan mempertahankan kontrol penuh atas data mereka dan dapat menyempurnakan model untuk tugas tertentu.

“Untuk perusahaan dengan data khusus domain yang terbatas, strategi yang layak adalah pertama-tama meningkatkan keragaman jawaban untuk kumpulan data mereka yang sudah ada, kemudian menggunakan pencampuran domain untuk mengintegrasikan data domain ini ke dalam resep penalaran umum seperti milik kami,” jelas Zhang.

Peningkatan Penalaran dan Kemampuan Transfer

Resep OpenMMReasoner digunakan untuk menyempurnakan model bahasa visi sumber terbuka Qwen2.5-VL-7B-Instruct, menghasilkan sistem berkemampuan tinggi yang mengungguli metode canggih pada tolok ukur penalaran multimodal (WeMath, MathVerse, MathVista). Kerangka kerja ini menunjukkan “kemunculan bertahap perilaku penalaran tekstual,” yang menunjukkan bahwa keterampilan yang dipelajari dari tugas-tugas multimodal dapat ditransfer ke domain linguistik murni. Hal ini menyiratkan bahwa memperkuat penalaran dalam satu modalitas akan meningkatkan kinerja pada modalitas lain.

Para peneliti juga menyoroti pentingnya efisiensi token: membatasi “anggaran penalaran” dapat mencapai akurasi yang sebanding atau bahkan lebih baik sekaligus mengurangi biaya komputasi.

Kerangka kerja yang efisien ini secara mendasar mengubah seberapa andal AI dalam mengambil kesimpulan: model tradisional “melompat” untuk mendapatkan jawaban, sementara OpenMMReasoner memaksa pemeriksaan lebih dalam terhadap langkah-langkah perantara, memastikan konsistensi internal.

Kerangka kerja OpenMMReasoner mewakili langkah maju yang signifikan dalam penalaran AI yang mudah diakses, transparan, dan efisien, menawarkan jalur praktis bagi bisnis yang ingin memanfaatkan kecerdasan multimoda tanpa bergantung pada sistem sumber tertutup yang masif.