Scale AI запускает «Голосовое Противостояние»: Новый Эталон для Оценки Голосового ИИ в Реальных Условиях

19

Scale AI представила «Голосовое Противостояние» – революционный эталон, разработанный для оценки моделей голосового ИИ посредством подлинного взаимодействия с людьми. В отличие от традиционных тестов, основанных на синтетической речи и заскриптованных запросах, эта платформа использует реальные разговоры на более чем 60 языках для измерения предпочтений. Результаты, уже демонстрирующие пробелы в производительности, которые упускаются существующими методами, сигнализируют о критическом сдвиге в том, как индустрия оценивает возможности голосового ИИ.

Проблема с Текущими Эталонами

Текущая оценка голосового ИИ сильно зависит от искусственных условий. Синтетическая речь, запросы только на английском языке и предопределенные наборы тестов не отражают нюансы реальных разговоров: акценты, фоновый шум и естественный ход беседы. Это создает неточное представление о том, как эти модели работают в практических сценариях. Scale AI решает эту проблему напрямую, используя предпочтительную «арену», основанную на взаимодействии реальных пользователей.

Как Работает «Голосовое Противостояние»

В основе «Голосового Противостояния» лежит уникальный механизм оценки. Пользователи получают бесплатный доступ к ведущим моделям ИИ (обычно требующим платной подписки) через платформу Scale ChatLab. Взамен они участвуют в слепых, лобовых «сражениях», выбирая, какая из двух анонимизированных голосовых моделей обеспечивает лучший опыт. Эти данные о предпочтениях людей формируют основу самой аутентичной таблицы лидеров в отрасли.

Система работает в двух режимах: Диктовка (преобразование речи в текст) и Речь-в-Речь (S2S). Третий режим, Полный Дуплекс, находится в разработке для захвата разговоров в реальном времени с возможностью прерывания.

Ключевые элементы дизайна обеспечивают справедливые сравнения:

  • Реальная Человеческая Речь: Запросы поступают из естественных разговоров, включая недостатки, такие как акценты и слова-паразиты.
  • Многоязыковая Поддержка: Представлены более 60 языков, причем значительная часть взаимодействий происходит не на английском языке.
  • Разговорные Запросы: 81% запросов являются открытыми, что исключает автоматическую оценку и полагается на предпочтения людей.
  • Согласование Стимулов: Пользователи автоматически переключаются на предпочтительную модель после голосования, что предотвращает произвольный выбор.

Первые Результаты Таблицы Лидеров (18 марта 2026 г.)

Первые данные раскрывают удивительные сведения о производительности моделей:

Таблица Лидеров Диктовки (Преобразование Речи в Текст)

  1. Gemini 3 Pro (1073) / Gemini 3 Flash (1068) – Статистически совпадают
  2. GPT-4o Audio (1019)
  3. Qwen 3 Omni (1000)

Таблица Лидеров Речи-в-Речь

  1. Gemini 2.5 Flash Audio (1060) / GPT-4o Audio (1059) – Статистически совпадают
  2. Grok Voice (1024)
  3. Qwen 3 Omni (1000)

При контроле стиля GPT-4o Audio незначительно превосходит Gemini 2.5 Flash Audio (1102 против 1075 Elo), в то время как Grok Voice демонстрирует более высокую производительность, чем показывает его сырой рейтинг. Примечательно, что Qwen 3 Omni, модель с открытым весом, превосходит многих более известных конкурентов по предпочтительным показателям.

Многоязыковой Разрыв и Ошибки Моделей

«Голосовое Противостояние» выявляет критические недостатки текущих моделей ИИ:

  • Языковая Устойчивость: Модели Gemini 3 доминируют на разных языках, но даже они испытывают трудности с последовательностью. Другие модели часто переходят на английский язык для неанглийских запросов. GPT Realtime 1.5 не отвечает на правильном языке в 20% случаев, в то время как его предшественник, GPT Realtime, делает это в 10% случаев.
  • Качество Голоса Имеет Значение: Вариации в каталоге голосов одной и той же модели могут значительно повлиять на предпочтения пользователей. Некоторые голоса работают на 30 процентных пунктов лучше, чем другие.
  • Ухудшение в Разговоре: Большинство моделей ухудшаются по мере продолжения разговора, испытывая трудности с поддержанием согласованности. Варианты GPT Realtime являются исключением, улучшаясь с увеличением контекста.

Что Это Означает для Будущего Голосового ИИ

«Голосовое Противостояние» представляет собой необходимую эволюцию в том, как мы оцениваем голосовой ИИ. Приоритизируя реальные предпочтения над синтетическими показателями, Scale AI обеспечивает более точную оценку возможностей моделей. Акцент платформы на многоязыковых взаимодействиях и продолжительных разговорах выявляет ограничения, часто упускаемые из виду в традиционных эталонах. Предстоящая оценка в режиме полного дуплекса еще больше уточнит этот процесс, захватывая непредсказуемую динамику естественного человеческого диалога.

Этот эталон – не просто инструмент для разработчиков, это критически важный ресурс для лиц, принимающих решения в корпорациях, стремящихся понять истинный потенциал – и ограничения – голосового ИИ в реальных приложениях.