Главная

Рубрика «wavenet»

Кодирование речи на 1600 бит-с нейронным вокодером LPCNet

2019-04-03 в 15:53, admin, рубрики: Codec2, LPC. кодирование звука, LPCNet, RNN, wavenet, WaveRNN, Алгоритмы, звук, кепстр, машинное обучение

Кодирование речи на 1600 бит-с нейронным вокодером LPCNet - 1

Это продолжение первой статьи о LPCNet. В первом демо мы представили архитектуру, которая сочетает обработку сигналов и глубокое обучение для повышения эффективности нейронного синтеза речи. На этот раз превратим LPCNet в нейронный речевой кодек с очень низким битрейтом (см. научную статью). Его можно использовать на текущем оборудовании и даже на телефонах.

Впервые нейронный вокодер работает в реальном времени на одном процессорном ядре телефона, а не на высокоскоростном GPU. Итоговый битрейт 1600 бит/с примерно в десять раз меньше, чем выдают обычные широкополосные кодеки. Качество намного лучше, чем у существующих вокодеров с очень низким битрейтом и сопоставимо с более традиционными кодеками, использующими более высокий битрейт.
Читать полностью »

Codec 2 + нейросеть = целый подкаст на одной дискете

2018-06-28 в 15:41, admin, рубрики: Codec 2, mp3, Opus, wavenet, Алгоритмы, звук, машинное обучение, нейросеть, подкастинг, сжатие данных, сжатие звука

В предыдущей статье мы говорили о кодеке Opus, который работает на очень низких битрейтах. Но другой кодек стремится достичь ещё более низких битрейтов — это Codec 2.

Codec 2 предназначен для кодирования только речи. И хотя битрейт впечатляет, звук не такой качественный, как в случае Opus, что можно услышать в аудиопримерах. Тем не менее, в сочетании с нейросетью (WaveNet) кодек демонстрирует впечатляющие результаты.

Codec 2 + нейросеть =целый подкаст на одной дискете - 1
Слои нейронной сети WaveNet
Читать полностью »

Нейросеть Tacotron 2 говорит с человеческими интонациями, на которых обучена

2017-12-21 в 19:04, admin, рубрики: Char2Wav, Deep Voice 3, Tacotron, Tacotron 2, wavenet, звук, искусственный интеллект, нейросеть, синтез речи

Нейросеть Tacotron 2 говорит с человеческими интонациями, на которых обучена - 1
Архитектура Tacotron 2. В нижней части иллюстрации показаны модели предложение-к-предложению, которые транслируют последовательность букв в последовательность признаков в 80-мерном пространстве. Техническое описание см. в научной статье

Синтез речи — искусственное воспроизводство человеческой речи из текста — традиционно считается одной из составляющих частей искусственного интеллекта. Раньше такие системы можно было увидеть только в фантастических фильмах, а сейчас они работают буквально в каждом смартфоне: это системы Сири, Алиса и тому подобные. Вот только они не очень реалистично произносят фразы: голос неживой, слова отделены друг от друга.

Компания Google разработала продвинутый синтезатор речи нового поколения. Он называется Tacotron 2 и основан на нейросети. Для демонстрации его возможностей компания выложила примеры синтеза. Внизу странички с примерами можно пройти тест и попробовать определить, где текст произносит синтезатор речи, а где человек. Определить разницу практически невозможно.
Читать полностью »

WaveNet: новая модель для генерации человеческой речи и музыки

2016-09-12 в 5:28, admin, рубрики: text-to-speech, wavenet, Блог компании Voximplant, генерация музыки, генерация речи, математика, машинное обучение, нейронные сети

WaveNet: новая модель для генерации человеческой речи и музыки - 1 Наша облачная платформа Voximplant — это не только телефонные и видео звонки. Это еще и набор «батареек», которые мы постоянно улучшаем и расширяем. Одна из самых популярных функций: возможность синтезировать речь, просто вызвав JavaScript метод say во время звонка. Разрабатывать свой синтезатор речи — на самая лучшая идея, мы все-таки специализируемся на телеком бэкенде, написанном на плюсах и способном обрабатывать тысячи одновременных звонков и снабжать каждый из них JavaScript логикой в реальном времени. Мы используем решения партнеров и внимательно следим за всем новым, что появляется в индустрии. Хочется через несколько лет отойти от мема «Железная Женщина» :) Статья, адаптированный перевод которой мы сделали за эти выходные, рассказывает про WaveNet, модель для генерации звука (звуковых волн). В ней мы рассмотрим как WaveNet может генерировать речь, которая похожа на голос любого человека, а также звучать гораздо натуральнее любых существующих Text-to-Speech систем, улучшив качество более чем на 50%.

Мы также продемонстрируем, что та же самая сеть может использоваться для создания других звуков, включая музыку, и покажем несколько автоматически сгенерированных примеров музыкальных композиций (пианино).
Читать полностью »

WaveNet: синтезированная компьютером речь, похожая на человеческую

2016-09-10 в 18:09, admin, рубрики: DeepMind, wavenet, искусственный интеллект, Научно-популярное

WaveNet: синтезированная компьютером речь, похожая на человеческую - 1

DeepMind — это автономное подразделение Google, которое занимается разработками в области искусственного интеллекта. Эта компания разработала AlphaGo — систему, обыгравшую в го чемпиона мира по го Ли Седоля.

Но удел DeepMind — не только игры. Сейчас сотрудники компании занимаются разработкой компьютерной системы синтезирования речи. Как и во всех прочих проектах DeepMind, здесь замешана слабая форма искусственная интеллекта. Она, по мнению специалистов, может кардинально улучшить ситуацию с синтезированной речью.
Читать полностью »

Публикации RSS | Комментарии RSS

https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «wavenet»

Кодирование речи на 1600 бит-с нейронным вокодером LPCNet

Codec 2 + нейросеть = целый подкаст на одной дискете

Нейросеть Tacotron 2 говорит с человеческими интонациями, на которых обучена

WaveNet: новая модель для генерации человеческой речи и музыки

WaveNet: синтезированная компьютером речь, похожая на человеческую

Архив

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «wavenet»

Кодирование речи на 1600 бит-с нейронным вокодером LPCNet

Codec 2 + нейросеть = целый подкаст на одной дискете

Нейросеть Tacotron 2 говорит с человеческими интонациями, на которых обучена

WaveNet: новая модель для генерации человеческой речи и музыки

WaveNet: синтезированная компьютером речь, похожая на человеческую

Новости

Актуальные темы

Архив