Scale AI представила «Голосовое Противостояние» – революционный эталон, разработанный для оценки моделей голосового ИИ посредством подлинного взаимодействия с людьми. В отличие от традиционных тестов, основанных на синтетической речи и заскриптованных запросах, эта платформа использует реальные разговоры на более чем 60 языках для измерения предпочтений. Результаты, уже демонстрирующие пробелы в производительности, которые упускаются существующими методами, сигнализируют о критическом сдвиге в том, как индустрия оценивает возможности голосового ИИ.
Проблема с Текущими Эталонами
Текущая оценка голосового ИИ сильно зависит от искусственных условий. Синтетическая речь, запросы только на английском языке и предопределенные наборы тестов не отражают нюансы реальных разговоров: акценты, фоновый шум и естественный ход беседы. Это создает неточное представление о том, как эти модели работают в практических сценариях. Scale AI решает эту проблему напрямую, используя предпочтительную «арену», основанную на взаимодействии реальных пользователей.
Как Работает «Голосовое Противостояние»
В основе «Голосового Противостояния» лежит уникальный механизм оценки. Пользователи получают бесплатный доступ к ведущим моделям ИИ (обычно требующим платной подписки) через платформу Scale ChatLab. Взамен они участвуют в слепых, лобовых «сражениях», выбирая, какая из двух анонимизированных голосовых моделей обеспечивает лучший опыт. Эти данные о предпочтениях людей формируют основу самой аутентичной таблицы лидеров в отрасли.
Система работает в двух режимах: Диктовка (преобразование речи в текст) и Речь-в-Речь (S2S). Третий режим, Полный Дуплекс, находится в разработке для захвата разговоров в реальном времени с возможностью прерывания.
Ключевые элементы дизайна обеспечивают справедливые сравнения:
- Реальная Человеческая Речь: Запросы поступают из естественных разговоров, включая недостатки, такие как акценты и слова-паразиты.
- Многоязыковая Поддержка: Представлены более 60 языков, причем значительная часть взаимодействий происходит не на английском языке.
- Разговорные Запросы: 81% запросов являются открытыми, что исключает автоматическую оценку и полагается на предпочтения людей.
- Согласование Стимулов: Пользователи автоматически переключаются на предпочтительную модель после голосования, что предотвращает произвольный выбор.
Первые Результаты Таблицы Лидеров (18 марта 2026 г.)
Первые данные раскрывают удивительные сведения о производительности моделей:
Таблица Лидеров Диктовки (Преобразование Речи в Текст)
- Gemini 3 Pro (1073) / Gemini 3 Flash (1068) – Статистически совпадают
- GPT-4o Audio (1019)
- Qwen 3 Omni (1000)
Таблица Лидеров Речи-в-Речь
- Gemini 2.5 Flash Audio (1060) / GPT-4o Audio (1059) – Статистически совпадают
- Grok Voice (1024)
- Qwen 3 Omni (1000)
При контроле стиля GPT-4o Audio незначительно превосходит Gemini 2.5 Flash Audio (1102 против 1075 Elo), в то время как Grok Voice демонстрирует более высокую производительность, чем показывает его сырой рейтинг. Примечательно, что Qwen 3 Omni, модель с открытым весом, превосходит многих более известных конкурентов по предпочтительным показателям.
Многоязыковой Разрыв и Ошибки Моделей
«Голосовое Противостояние» выявляет критические недостатки текущих моделей ИИ:
- Языковая Устойчивость: Модели Gemini 3 доминируют на разных языках, но даже они испытывают трудности с последовательностью. Другие модели часто переходят на английский язык для неанглийских запросов. GPT Realtime 1.5 не отвечает на правильном языке в 20% случаев, в то время как его предшественник, GPT Realtime, делает это в 10% случаев.
- Качество Голоса Имеет Значение: Вариации в каталоге голосов одной и той же модели могут значительно повлиять на предпочтения пользователей. Некоторые голоса работают на 30 процентных пунктов лучше, чем другие.
- Ухудшение в Разговоре: Большинство моделей ухудшаются по мере продолжения разговора, испытывая трудности с поддержанием согласованности. Варианты GPT Realtime являются исключением, улучшаясь с увеличением контекста.
Что Это Означает для Будущего Голосового ИИ
«Голосовое Противостояние» представляет собой необходимую эволюцию в том, как мы оцениваем голосовой ИИ. Приоритизируя реальные предпочтения над синтетическими показателями, Scale AI обеспечивает более точную оценку возможностей моделей. Акцент платформы на многоязыковых взаимодействиях и продолжительных разговорах выявляет ограничения, часто упускаемые из виду в традиционных эталонах. Предстоящая оценка в режиме полного дуплекса еще больше уточнит этот процесс, захватывая непредсказуемую динамику естественного человеческого диалога.
Этот эталон – не просто инструмент для разработчиков, это критически важный ресурс для лиц, принимающих решения в корпорациях, стремящихся понять истинный потенциал – и ограничения – голосового ИИ в реальных приложениях.


















































