Scale AI Meluncurkan Voice Showdown: Tolok Ukur Baru untuk Performa Voice AI di Dunia Nyata

13

Scale AI telah memperkenalkan Voice Showdown, tolok ukur inovatif yang dirancang untuk mengevaluasi model AI suara melalui interaksi manusia yang sesungguhnya. Tidak seperti tolok ukur tradisional yang mengandalkan ucapan sintetik dan perintah tertulis, platform ini menggunakan percakapan nyata dalam lebih dari 60 bahasa untuk mengukur preferensi. Hasilnya, yang sudah menunjukkan kesenjangan kinerja yang terlewatkan oleh metode yang ada, menandakan adanya perubahan penting dalam cara industri menilai kemampuan AI suara.

Masalah dengan Tolok Ukur Saat Ini

Evaluasi AI suara saat ini sangat bergantung pada kondisi buatan. Ucapan sintetik, perintah hanya dalam bahasa Inggris, dan rangkaian pengujian yang telah ditentukan sebelumnya gagal mencerminkan nuansa percakapan di dunia nyata: aksen, kebisingan latar belakang, dan alur percakapan alami. Hal ini menciptakan gambaran yang tidak akurat tentang kinerja model ini dalam skenario praktis. Scale AI mengatasi masalah ini secara langsung dengan arena berbasis preferensi yang didukung oleh interaksi pengguna nyata.

Cara Kerja Pertunjukan Suara

Inti dari Voice Showdown terletak pada mekanisme evaluasinya yang unik. Pengguna mendapatkan akses gratis ke model AI terkemuka (biasanya di balik langganan berbayar) melalui platform ChatLab Scale. Sebagai imbalannya, mereka berpartisipasi dalam “pertempuran” head-to-head, memilih mana dari dua model suara anonim yang memberikan pengalaman lebih baik. Data preferensi manusia ini menjadi dasar papan peringkat paling autentik di industri.

Sistem beroperasi dalam dua mode: Mendikte (ucapan-ke-teks) dan Ucapan-ke-Ucapan (S2S). Mode ketiga, Full Duplex, sedang dikembangkan untuk merekam percakapan real-time dan dapat diinterupsi.

Elemen desain utama memastikan perbandingan yang adil:

  • Ucapan Manusia Nyata: Perintah berasal dari percakapan alami, termasuk ketidaksempurnaan seperti aksen dan kata pengisi.
  • Dukungan Multibahasa: Lebih dari 60 bahasa terwakili, dengan sebagian besar interaksi terjadi di luar bahasa Inggris.
  • Perintah Percakapan: 81% perintah bersifat terbuka, sehingga menghilangkan penilaian otomatis dan mengandalkan preferensi manusia.
  • Penyelarasan Insentif: Pengguna secara otomatis dialihkan ke model pilihan mereka setelah memberikan suara, sehingga tidak membuat pilihan sewenang-wenang.

Hasil Papan Peringkat Awal (18 Maret 2026)

Data awal mengungkapkan wawasan mengejutkan tentang performa model:

Mendiktekan Papan Peringkat (Ucapan-ke-Teks)

  1. Gemini 3 Pro (1073) / Gemini 3 Flash (1068) – Secara statistik terikat
  2. Audio GPT-4o (1019)
    3.Qwen 3 Omni (1000)

Papan Peringkat Ucapan-ke-Ucapan

  1. Gemini 2.5 Flash Audio (1060) / GPT-4o Audio (1059) – Secara statistik terikat
  2. Suara Grok (1024)
    3.Qwen 3 Omni (1000)

Di bawah kontrol gaya, GPT-4o Audio sedikit mengungguli Gemini 2.5 Flash Audio (1.102 vs 1.075 Elo), sementara Grok Voice menunjukkan kinerja yang lebih kuat daripada yang ditunjukkan oleh peringkat mentahnya. Khususnya, Qwen 3 Omni, model berbobot terbuka, mengungguli banyak pesaing terkemuka dalam peringkat preferensi.

Kesenjangan Multibahasa dan Kegagalan Model

Voice Showdown menyoroti kelemahan kritis dalam model AI saat ini:

  • Ketahanan Bahasa: Model Gemini 3 mendominasi berbagai bahasa, tetapi bahkan model tersebut kesulitan dalam hal konsistensi. Model lain sering kali kembali ke bahasa Inggris untuk perintah non-Inggris. GPT Realtime 1.5 gagal merespons dalam bahasa yang benar sebanyak 20%, sedangkan pendahulunya, GPT Realtime, melakukan hal yang sama sebanyak 10%.
  • Kualitas Suara Penting: Variasi dalam katalog suara suatu model dapat memengaruhi preferensi pengguna secara signifikan. Beberapa suara memiliki performa hingga 30 poin persentase lebih baik dibandingkan suara lainnya.
  • Degradasi dalam Percakapan: Sebagian besar model mengalami penurunan performa seiring meluasnya percakapan, sehingga kesulitan mempertahankan koherensi. Varian GPT Realtime merupakan pengecualian, yang semakin membaik seiring dengan konteks yang lebih panjang.

Apa Artinya Bagi Masa Depan Voice AI

Voice Showdown mewakili evolusi penting dalam cara kami mengevaluasi AI suara. Dengan memprioritaskan preferensi dunia nyata dibandingkan metrik sintetis, Scale AI memberikan penilaian kemampuan model yang lebih akurat. Fokus platform ini pada interaksi multibahasa dan percakapan yang luas memperlihatkan keterbatasan yang sering diabaikan dalam tolok ukur tradisional. Evaluasi Full Duplex yang akan datang akan semakin menyempurnakan proses ini, dengan menangkap dinamika dialog alami manusia yang tidak dapat diprediksi.

Tolok ukur ini bukan hanya alat bagi pengembang; ini adalah sumber daya penting bagi pengambil keputusan perusahaan yang ingin memahami potensi sebenarnya – dan keterbatasan – AI suara dalam aplikasi dunia nyata.