- PVSM.RU - https://www.pvsm.ru -
Зачастую нам нужно воспроизвести аудио-информацию, которая не была записана заранее, и извлекается из источника данных динамически: имя человека, название города, статус заказа и т.п. Особенно эта возможность востребована в колл-центрах и порталах самообслуживания.
Для этого лучше всего использовать технологию TTS (преобразование текста в речь), поскольку она динамически создает нужные аудиофайлы, а голосовое приложение, работающее на сервере 3CX, проигрывает их абоненту. Для генерации аудиофайлов используется определенный веб-сервис, после чего создается локальный WAV файл. Когда разговор с абонентом завершился, файл удаляется для освобождения места на диске.
Для данной возможности в 3CX следует зарегистрировать аккаунт на Amazon Web Services. 3CX использует веб-сервис TTS Amazon Polly. После изучения различных TTS сервисов, мы выяснили, что Amazon Polly обладает отличным качеством генерации, хорошим охватом языков [1], множеством разных голосов [2] и весьма доступной ценой. Также он бесплатен в течение первого года использования! С другой стороны, в будущем мы планируем добавить поддержку TTS и от других мировых производителей.
Обратите внимание — для работы TTS генерации необходимо использовать 3CX v15.5 SP2 и выше.
Среда разработки 3CX Call Flow Designer [3] получила новый тип аудио-сообщений Text to Speech Audio Prompt. Вы можете выбрать его в любом месте, где требуется проиграть сообщение, например, в компонентах Prompt Playback, Menu, User Input и других.
В этой статье мы расскажем, как создать аккаунт Amazon Web Services, включить Amazon Polly и начать использовать компонент Text to Speech Audio Prompt для генерации естественной речи в вашем колл-центре.
Обратите внимание — среда разработки 3CX CFD поставляется бесплатно. Но голосовые приложения будут выполняться только на 3CX редакции Pro и Enterprise [4]. Скачать CFD можно отсюда [5].
Для вашего удобства, демо-проект этого голосового приложения поставляется вместе с дистрибутивом 3CX CFD и находится в папке Documents3CX Call Flow Designer Demos.
Перед началом работы с CFD приложением, создайте аккаунт Amazon Web Services. Для этого ознакомьтесь с руководством [6] от Amazon.
После создания AWS аккаунта, создайте пользователя, учетные данные которого наше голосовое приложение использует для доступа к AWS. Следуйте руководству [7] от Amazon. Укажите тип доступа Programmatic access. При настройки прав доступа выберите Attach existing policies directly, затем найдите и отметьте AmazonPollyFullAccess.
Затем перейдите в параметры пользователя в раздел Security credentials и кликните Create access key. Зафиксируйте Access key ID и Secret access key — эти данные потребуются при настройке TTS сервиса в голосовом приложении.
Внимание! Ознакомьтесь с ограничениями TTS Amazon Polly [8]. Эти ограничения не должны создавать проблем в большинстве CFD приложений, однако имейте их ввиду.
Для создания проекта CFD перейдите в File → New → Project, укажите папку размещения проекта и его имя, например, TextToSpeechDemo.
Выделите проект в разделе Project Explorer. Рассмотрим параметры проекта (раздел Properties), которые необходимо указать для работы TTS:
Эти параметры будут использоваться в любом сообщении типа Text To Speech Audio Prompt в этом проекте.
Как было сказано ранее, обычно TTS используется для генерации речи из текста, полученного из базы данных или веб-сервиса. Но для упрощения нашего примера мы подготовим короткую фразу, добавим к ней переменную из нашего голосового приложения и преобразуем все это в речь. Мы определим переменную AccountBalance и установим ее значение в 100. Затем подготовим фразу: «Баланс вашего счёта 100 долларов».
Для добавления компонента Prompt Playback:
CONCATENATE("Your account balance is $",callflow$.AccountBalance)
Голосовое приложение готово! Теперь его следует скомпилировать и загрузить на сервер 3CX. Для этого:
Обычно в синтезированной речи используется несколько статических сообщений, например, приветствие для пользователей или выбор опции меню, и несколько динамических — например, баланс счёта. Желательно использовать TTS сервис Polly только для изменяемых данных — это позволит избежать дополнительных расходов на синтез повторяющихся фраз. С другой стороны, необходимо, чтобы все фразы были произнесены одинаковым голосом. Для этого лучше всего создать готовые голосовые файлы для статических фраз через консоль Amazon Polly [11] и загрузить их как WAV файлы в голосовое приложение. Используйте эти файлы в обычных сообщениях Audio File Prompt вместо повторяющейся динамической генерации.
В консоли Amazon Polly выберите ваш язык, регион, желаемый голос, введите нужный текст и нажмите Download MP3. Обратите внимание, 3CX использует звуковой формат WAV, Моно, 8.000 Гц, 16 бит. Поэтому после загрузки файла сконвертируйте его в поддерживаемый формат, как указано здесь [12].
Автор: Игорь Снежко
Источник [13]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/aws-2/270269
Ссылки в тексте:
[1] хорошим охватом языков: http://docs.aws.amazon.com/polly/latest/dg/SupportedLanguage.html
[2] голосов: http://docs.aws.amazon.com/polly/latest/dg/voicelist.html
[3] 3CX Call Flow Designer: https://www.3cx.com/phone-system/call-flow-designer/
[4] 3CX редакции Pro и Enterprise: https://www.3cx.ru/ip-pbx/edition-comparison/
[5] отсюда: http://downloads.3cx.com/downloads/3CXCallFlowDesigner.exe
[6] руководством: https://aws.amazon.com/premiumsupport/knowledge-center/create-and-activate-aws-account/
[7] руководству: http://docs.aws.amazon.com/IAM/latest/UserGuide/id_users_create.html
[8] ограничениями TTS Amazon Polly: http://docs.aws.amazon.com/polly/latest/dg/limits.html
[9] географический регион AWS: http://docs.aws.amazon.com/general/latest/gr/rande.html#pol_region
[10] Using SSML: http://docs.aws.amazon.com/polly/latest/dg/ssml.html
[11] консоль Amazon Polly: https://console.aws.amazon.com/polly
[12] здесь: https://habrahabr.ru/company/3cx/blog/322570/
[13] Источник: https://habrahabr.ru/post/344260/?utm_source=habrahabr&utm_medium=rss&utm_campaign=344260
Нажмите здесь для печати.