Главная

Рубрика «speech corpus»

Огромный открытый датасет русской речи версия 1.0

2019-11-05 в 7:28, admin, рубрики: annotated speech, asr, automatic speech recognition, data, open datasets, open source, speech corpus, speech recognition, STT, звук, машинное обучение, открытые данные

В начале этого года по ряду причин мы загорелись идеей создать самый большой открытый датасет русской речи. Подробнее о нашей мотивации и о том, как всё начиналось,
можно прочитать в этой статье — Огромный открытый датасет русской речи. С тех пор наш проект прошел через ряд масштабных изменений, мы в три раза увеличили количество данных, повысили их качество, добавили лейблы для спикеров и сейчас мы наконец готовы представить вам версию 1.0.

Также мы не готовы останавливаться на достигнутом и планируем продолжать делать интесивную работу над ошибками в последующих версиях и улучшать качество уже опубликованных данных. Версию 1.1 мы планируем посвятить масштабной работе над ошибками.

Читать полностью »

Огромный открытый датасет русской речи

2019-05-06 в 18:36, admin, рубрики: annotated speech, asr, automatic speech recognition, data, open datasets, open source, speech corpus, speech recognition, STT, звук, машинное обучение, открытые данные

Специалистам по распознаванию речи давно не хватало большого открытого корпуса устной русской речи, поэтому только крупные компании могли позволить себе заниматься этой задачей, но они не спешили делиться своими наработками.

Мы торопимся исправить это годами длящееся недоразумение.

Итак, мы предлагаем вашему вниманию набор данных из 4000 часов аннотированной устной речи, собранный из различных интернет-источников.

Подробности под катом.Читать полностью »

Публикации RSS | Комментарии RSS

https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js

Информация

Комментарии

Рекомендуем

Рубрика «speech corpus»

Огромный открытый датасет русской речи версия 1.0

Огромный открытый датасет русской речи