Системы синтеза речи для контакт-центров: исследование ICT-Online.ru

Целью данного исследования является изучение рынка сервисов по синтезу (генерации) речи для конкретной аудитории (виртуальные ассистенты колл-центров в телекоме) и демонстрация методологии сравнения разных решений для выбора оптимального продукта.

Обзор рынка. Актуальность исследования

Синтез речи является одним из инструментов из категории речевых технологий. Помимо него, к этому сегменту программных продуктов относятся, например, инструменты для распознавания речи, речевой аналитики, голосовой биометрии.

Значительный рост рынка речевых технологий в России и мире, который наблюдается в последние годы обусловлен двумя большими группами факторов. Первая связана с развитием и широким распространением технологий искусственного интеллекта, без которых распознавание и синтез речи невозможен. Вторая – с актуальными потребностями заказчиков различных сфер деятельности в решениях подобного рода для оптимизации персонала, сокращения издержек, массового информирования клиентов, устранения очередей на телефонной линии и других задач. К главным потребителям речевых технологий традиционно относят контакт-центры телеком-операторов, финансовых организаций, онлайн-магазинов, ИТ-компаний, медицинских центров, любых других поставщиков услуг.

В цифрах – исследовательское агентство BrandEssence оценивало мировой рынок разговорного ИИ в 8,2 млрд долларов по итогам 2023 года и прогнозировало его рост до 32,5 млрд долларов к 2028 году. В России компания Just AI прогнозирует рост рынка с 76 млн долларов в 2020 году до 561 млн долларов к 2025 году.

Отдельно стоит отметить, что инструменты синтеза речи попадают в обзоры и рейтинги значительно реже, чем инструменты распознавания речи. Это становится одной из причин актуальности данного исследования. Другая смежная причина – нехватка опыта и компетенций у заказчиков для объективного сравнения доступных инструментов синтеза речи. Часто решение об использовании того или иного продукта принимается на интуитивном уровне или на основе косвенных факторов – известности разработчика на рынке, рекламы продукта и т. д. Мы предлагаем методологию, которая позволит сделать этот выбор более обоснованным.

Методология исследования

Для исследования мы взяли семь бизнес-решений от значимых игроков рынка, которые, по отзывам потребителей и презентациям вендоров, демонстрируют достаточно хорошее качество синтеза звука:

  • инструмент Yandex SpeechKit;
  • платформу речевых сервисов SaluteSpeech (бывшую SmartSpeech) от Сбера;
  • платформу синтеза и распознавания речи Audiogram от MTS AI;
  • инструмент «Синтез речи» Облачной платформы ЦРТ;
  • инструмент распознавания и синтеза речи Tinkoff VoiceKit;
  • решение для синтеза речи Text-to-speech от «Наносемантики»;
  • маркетплейс голосов Aimyvoice.

В качестве тестируемых образцов были выбраны готовые голоса, которые поставщики услуг по синтезу речи предлагают клиентам – один мужской и один женский:

  • Yandex SpeechKit – «Филипп» и «Алёна»;
  • SaluteSpeech – «Борис» и «Наталья»;
  • Audiogram – «Ганджаев» и «Борисова» (режимы «high quality» и «light»);
  • «Синтез речи» ЦРТ – «Владимир» и «Юлия»;
  • Tinkoff VoiceKit – «Дорофеев» и «Алёна»;
  • Text-to-speech от «Наносемантики» – «Лео» и «Наташа»;
  • Aimyvoice – «Андрей» и «Татьяна».

Для точного позиционирования эксперимента, а также для того, чтобы все участники находились в равных условиях, были сформулированы определенные правила:

  • домен (тематика) запросов на синтез – из сферы деятельности контакт-центров в телекоме;
  • каждый голос озвучивал одинаковые фразы;
  • для оценки фокус-группой при обработке синтезированных голосовых файлов и проигрывании аудиозаписей использовались одинаковые кодеки;
  • качество синтеза мужских и женских голосов оценивалось раздельно.

Качество синтеза речи измерялось двумя метриками:

MOS (Mean Opinion Score): участники фокус-группы, независимо друг от друга, прослушивают аудио-семплы семи вендоров. В специальной анкете они оценивают каждый семпл по девяти критериям. Диапазон оценок – от 1 (самая низкая оценка, неправдоподобное звучание) до 5 (самая высокая оценка, очень близко к звучанию человеческой речи). Принадлежность семпла к тому или иному вендору не раскрывается.

Side-by-side: участники фокус-группы, независимо друг от друга, сравнивают семплы двух вендорских решений в формате «один относительно другого». По такому принципу в исследовании отдельно сравниваются пять различных фраз. Качество звучания каждой фразы оценивается по шкале от -3 до 3, где оценка ноль или около нуля означает примерно одинаковое звучание, а чем больше значения ниже или выше нуля, тем больше преимущество семпла, расположенного, соответственно, слева или справа. При этом отклонение менее 1 пункта считается приемлемым, а отклонение более 1 пункта – значительным превосходством.  Принадлежность семпла к тому или иному вендору не раскрывается.

Для участия в исследовании были привлечены пользователи сервиса Толока в количестве 500 человек. Такой объем фокус-группы позволяет получить достаточное представление о разбросе оценок, исключить аномальные оценки (например, вызванные техническими проблемами при прослушивании) и вычислить средние значения. По нашему мнению, дальнейшее расширение фокус-группы кардинально не повлияло бы на объективность эксперимента.

Оценка по метрике MOS

По результатам исследования по метрике MOS была рассчитана средняя оценка синтезированных голосов по всем критериям. Лучшее качество мужского голоса продемонстрировали решения SaluteSpeech и Audiogram в режиме «high quality», женского – решения Yandex SpeechKit и ЦРТ.

Из интересных наблюдений – женские голоса фокус-группа оценила намного более однородно: разброс средних оценок составил всего 0,3 балла, тогда как у мужских голосов разброс – 0,63 балла. Таким образом, часть мужских голосов получила наиболее высокую среднюю оценку (4 и 3,99 баллов), но другая часть – наиболее низкую (3,53 и 3,57 баллов).

Для сравнения – «живая» человеческая речь в подобных экспериментах обычно получает среднюю оценку 4,5 баллов.

 

MOS: средняя оценка по всем критериям. Источник – аналитика ICT-Online.ru

MOS: средняя оценка по всем критериям. Источник – аналитика ICT-Online.ru

 

Ниже приведены оценки респондентов мужских и женских голосов отдельно по каждому критерию. Здесь стоит отметить, что фокус-группа ставила наиболее низкие оценки по критерию «естественность звучания речи». Это главная точка роста для вендоров решений по синтезу речи. Меньше всего баллов респонденты снижали за неправильное произношение – то есть виртуальные ассистенты (за некоторым исключением) достаточно хорошо «научились» базовому умению не коверкать слова, ставить правильное ударение и т. д.

 

MOS: мужские голоса

MOS: мужские голоса. Источник – аналитика ICT-Online.ru

 

MOS: женские голоса

MOS: женские голоса. Источник – аналитика ICT-Online.ru

 

Оценка по метрике Side-by-side

По методике Side-by-side голоса сравниваются «каждый с каждым», то есть полный эксперимент должен включать в себя по 21 сравнению мужских и женских голосов. В рамках данного обзора мы для примера ограничимся демонстрацией пяти таких пар – сравнением синтеза речи Audiogram (high quality) с каждым из конкурентов (кроме Audiogram light).

Ниже приведены графики сравнений, где в правой части – Audiogram, а в левой – конкуренты. Столбик диаграммы отклоняется в сторону одного из участников в той степени, в какой фокус-группа отдала ему предпочтение.

Также обратим внимание на построение фраз: это в большинстве своем не клишированные предложения, а фразы, по структуре и приемам приближенные к живой разговорной речи. С одной стороны, это само по себе делает общение виртуального ассистента с абонентом более естественным. С другой стороны – такие фразы более сложны для правильного синтеза.

Сначала приведем средние оценки фокус-группы по всем фразам.

 

Side-by-side: мужские голоса

Side-by-side: мужские голоса. Источник – аналитика ICT-Online.ru

 

Side-by-side: женские голоса

Side-by-side: женские голоса. Источник – аналитика ICT-Online.ru

 

Далее – средние оценки фокус-группы по каждой фразе из пяти. Стоит обратить внимание на неоднозначные оценки при сравнении отдельных фраз у двух инструментов. Например, при сравнении Audiogram и Aimyvoice на фразе «Говорят молчание знак согласия. Вы согласны, что это СПАМ звонок?» респонденты отдали безусловное предпочтение первому инструменту, а на фразе «Кажется вы Знакомый! Скажите, что вы хотели, я попрошу абонента вам перезвонить» – второму. Это хороший пример того, насколько сильно специфика набора фраз может влиять на выбор заказчиком той или иной модели.

 

Side-by-side: мужские голоса по фразам

Side-by-side: мужские голоса по фразам. Источник – аналитика ICT-Online.ru

 

Side-by-side: женские голоса по фразам

Side-by-side: женские голоса по фразам. Источник – аналитика ICT-Online.ru

 

Выводы

Исследование систем синтеза речи было проведено в рамках одного определенного домена: секретарей (виртуальных помощников) контакт-центров телеком-компаний.

На качество генерируемого голоса могут оказывать влияние такие факторы, как

  • использование вендором определенных моделей и технологий (более современные модели дают более качественный звук),
  • выбор голоса из доступных вариантов (даже в рамках решения одного вендора разные голоса могут произносить отдельные фразы с разным качеством),
  • выбор конкретных фраз для синтеза,
  • комплексный подход к оценке (синтетический голос должен не только хорошо звучать сам по себе, но и справляться с такими нюансами, как ударения, омонимы, сокращения, аббревиатуры).

В итоге три или четыре инструмента (в зависимости от конкретного этапа исследования) продемонстрировали более высокие показатели, чем остальные. Однако обращаем внимание, что это не универсальные показатели качества, а только фиксация оценок, полученных в определенных условиях.

Данное исследование может быть использовано в бизнес-среде как пример методологии для выбора оптимального решения по синтезу и распознаванию речи.

 

Изображение к лиду - freepik.com

Автор: Андрей Блинов.

Тематики: Интеграция

Ключевые слова: колл-центр, голосовые помощники