Рубрика «синтез речи» - 2

Неодушевлённые объекты, способные говорить, фигурировали еще в легендах древних цивилизаций. В шумерской мифологии бог войны Нинурта имел волшебную булаву, которая делилась тактическими советами в бою. Скандинавы считали, что Один заколдовал отрубленную голову некогда мудрого великана, чтобы она могла говорить. Но несмотря на популярный образ, первые попытки воплощения синтеза речи на технологическом уровне предприняли в XVIII веке. Рассказываем, кто этим занимался.

История синтезаторов речи: первые механические установки - 1Читать полностью »

Хотя нейронные сети стали использоваться для синтеза речи не так давно (например), они уже успели обогнал классические подходы и с каждым годам испытывают на себе всё новые и новый задачи.

Например, пару месяцев назад появилась реализация синтеза речи с голосовым клонированием Real-Time-Voice-Cloning. Давайте попробуем разобраться из чего она состоит и реализуем свою многоязычную (русско-английскую) фонемную модель.

Строение

Многоязычный синтез речи с клонированием - 1

Наша модель будет состоять из четырёх нейронных сетей. Первая будет преобразовывать текст в фонемы (g2p), вторая — преобразовывать речь, которую мы хотим клонировать, в вектор признаков (чисел). Третья — будет на основе выходов первых двух синтезировать Mel спектрограммы. И, наконец, четвертая будет из спектрограмм получать звук.

Читать полностью »

Нейросеть Facebook заговорила голосом Билла Гейтса - 1

Шон Васкез и Майк Льюис из компании Facebook представили синтезатор речи с новым принципом работы весьма эффектным образом: на аккаунте разработчиков на Github появилась коллекция сэмплов, где нейросеть убедительно имитирует речь основателя Microsoft. На записях звучат несколько коротких фраз произвольного содержания, в которых не только точно копируется тембр голоса Гейтса, но и тонко передаются естественные интонации — последнее долгое время оставалось для искусственного интеллекта недосягаемо высокой планкой.
Читать полностью »

Активность мозга человека впервые транслировали в чёткую речь - 1
Схема метода реконструкции речи. Человек прослушивает слова, в результате активируются нейроны его слуховой коры. Данные интерпретируются четырьмя способами: сочетанием двух типов регрессионных моделей и двух типов речевых представлений, затем поступают в систему нейросетей для извлечения признаков, которые впоследствии используются для настройки параметров вокодера

Нейроинженеры Колумбийского университета (США) первыми в мире создали систему, которая переводит мысли человека в понятную, различимую речь, вот звукозапись слов (mp3), синтезированных по мозговой активности.

Наблюдая за активностью в слуховой коре головного мозга, система с беспрецедентной ясностью восстанавливает слова, которые слышит человек. Конечно, это не озвучивание мыслей в прямом смысле слова, но сделан важный шаг в этом направлении. Ведь похожие паттерны мозговой активности возникают в коре головного мозга, когда человек воображает, что слушает речь, или когда мысленно проговаривает слова.
Читать полностью »

image

Приглашаем поучаствовать в конкурсе по синтезу живой русской речи на основе технологий глубоких нейронных сетей. Конкурс рассчитан на студентов старших курсов, молодых специалистов и всех желающих, интересующихся машинным обучением и речевыми технологиями. Победитель получит 100 000 рублей!

Участникам TTS challenge предстоит создать и обучить систему синтеза и озвучить с её помощью несколько десятков предложений русского текста. Базу голоса для обучения предоставляет ЦРТ, методы достижения результата участники выбирают самостоятельно. О том, как сделать нейросетевой синтез своими руками, мы недавно рассказывали в этой статье.
Читать полностью »

Синтез речи на сегодняшний день применяется в самых разных областях. Это и голосовые ассистенты, и IVR-системы, и умные дома, и еще много чего. Сама по себе задача, на мой вкус, очень наглядная и понятная: написанный текст должен произноситься так, как это бы сделал человек.

Некоторое время назад в область синтеза речи, как и во многие другие области, пришло машинное обучение. Выяснилось, что целый ряд компонентов всей системы можно заменить на нейронные сети, что позволит не просто приблизиться по качеству к существующим алгоритмам, а даже значительно их превзойти.

Нейросетевой синтез речи своими руками - 1

Я решил попробовать сделать полностью нейросетевой синтез своими руками, а заодно и поделиться с сообществом своим опытом. Что из этого получилось, можно узнать, заглянув под кат.
Читать полностью »

Нейросеть Tacotron 2 говорит с человеческими интонациями, на которых обучена - 1
Архитектура Tacotron 2. В нижней части иллюстрации показаны модели предложение-к-предложению, которые транслируют последовательность букв в последовательность признаков в 80-мерном пространстве. Техническое описание см. в научной статье

Синтез речи — искусственное воспроизводство человеческой речи из текста — традиционно считается одной из составляющих частей искусственного интеллекта. Раньше такие системы можно было увидеть только в фантастических фильмах, а сейчас они работают буквально в каждом смартфоне: это системы Сири, Алиса и тому подобные. Вот только они не очень реалистично произносят фразы: голос неживой, слова отделены друг от друга.

Компания Google разработала продвинутый синтезатор речи нового поколения. Он называется Tacotron 2 и основан на нейросети. Для демонстрации его возможностей компания выложила примеры синтеза. Внизу странички с примерами можно пройти тест и попробовать определить, где текст произносит синтезатор речи, а где человек. Определить разницу практически невозможно.
Читать полностью »

image

Давным-давно посетила меня идея создать синтезатор речи с «голосом робота», как, например, в песне Die Roboter группы Kraftwerk. Поиски информации по «голосу робота» привели к историческому факту, что подобное звучание синтетической речи характерно для вокодеров, которые используются для сжатия речи (2400 — 9600 бит/c). Голос человека, синтезированный вокодером, отдает металлическим звучанием и становится похожим на тот самый «голос робота». Музыкантам понравился данный эффект искажения речи, и они стали активно его использовать в своем творчестве.
Читать полностью »

Пока еще Cortana не стала доступной для русскоговорящих пользователей Windows Phone 8.1, а это ожидается скоро, я предлагаю вам самим сделать веселое апрельское приложение, с помощью которого можно будет поговорить с телефоном, покомандовать им, а может быть и поиграть.

На деле это, оказывается, довольно просто.

Поговори со мной, Windows Phone - 1

В качестве примера предлагаю сделать детское приложение, которое тренирует в устном счете до 10-ти. Приложение будем писать на XAML/C#
Читать полностью »

Мобильное приложение «Читатель» теперь для Android - 1

Три года назад мы выпустили мобильное приложение «Читатель» для iOS и от многих пользователей нам стали приходить письма с вопросом, собираемся ли мы выпустить версию под Android. Разработка завершена, и состоялся официальный запуск «Читателя» в Google Play.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js