Мы опубликовали современные STT модели сравнимые по качеству с Google

Мы опубликовали современные STT модели сравнимые по качеству с Google - 1

Мы наконец опубликовали наш набор высококачественных пре-тренированных моделей для распознавания речи (т.е. сравнимых по качеству с премиум-моделями Google) для следующих языков:

Английский;
Немецкий;
Испанский;

Вы можете найти наши модели в нашем репозитории вместе с примерами и метриками качества и скорости. Мы также постарались сделать начало работы с нашими моделями как можно более простым — выложили примеры на Collab и чекпойнты для PyTorch, ONNX и TensorFlow. Модели также можно загружать через TorchHub.

	PyTorch	ONNX	TensorFlow	Качество	Colab
Английский (en_v1)	✓	✓	✓	ссылка ^[1]	^[2]
Немецкий (de_v1)	✓	✓	✓	ссылка ^[1]	^[2]
Испанский (es_v1)	✓	✓	✓	ссылка ^[1]	^[2]

Почему это Важно

Распознавание речи традиционно имело высокие барьеры на вход по ряду причин:

Данные сложно собирать;
Разметка на сравнимую единицу данных стоит сильно дороже чем в компьютерном зрении;
Высокие требования по вычислительной мощности и устаревшие технологии;

Вот перечень типовых проблем, с которыми сталкивались существующие решения для распознавания речи до нашего релиза:

Исследования в этой сфере обычно делаются на огромных вычислительных мощностях;
Пре-тренированные модели и готовые рецепты обычно имеют сильные проблемы с генерализацией, их тяжело использовать "как есть", много зависимостей от устаревших технологий;
До недавнего времени сообщество не имело доступа к простым в использовании, но качественным пре-тренированным моделям для распознавания речи;

Для начала мы попробовали решить какие-то из этих проблем, опубликовав самый большой в мире речевой корпус для русского языка (смотрите наш пост на Хабре тут ^[3]). В этот раз мы делаем свой вклад в решение этих проблем следующим образом:

Мы публикуем набор высококачественных пре-тренированных моделей для популярных языков;
Наши модели быстрые и могут работать на обычном железе;
Наши модели легко использовать;
Наши модели пре-тренированы на огромных и разнообразных речевых корпусах;
Мы строили наши модели так, чтобы они были устойчивы к разным доменам, насколько это возможно;

Сделать Просто — Сложно

Нам кажется, что современные технологии должны быть безумно простыми в использовании. В нашей работе мы следуем следующим принципам:

Скорость и компактность;
Генерализация между разными доменами. Должно существовать одно общее решение, которое незначительными усилиями настраивается на конкретные домены, а не наоборот;
Максимальная простота в использовании ("1 строка кода");

Дальнейшие Планы

Сейчас наименьший размер, до которого мы смогли ужать наши модели — в районе 50 мегабайт.
В среднесрочной перспективе — планка сжатия до 10-20 мегабайт без потери качества кажется нам выполнимой.
Также мы планируем добавлять другие популярные языки.

Ссылки

Автор: Alexander

Источник ^[7]

Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/big-data/357069

Ссылки в тексте:

[1] ссылка: https://github.com/snakers4/silero-models/wiki/Quality-Benchmarks

[2] Image: https://colab.research.google.com/github/snakers4/silero-models/blob/master/examples.ipynb

[3] тут: https://habr.com/ru/post/474462/

[4] Наши модели на Github: https://github.com/snakers4/silero-models

[5] Вики: https://github.com/snakers4/silero-models/wiki

[6] Метрики скорости: https://github.com/snakers4/silero-models/wiki/Performance-Benchmarks

[7] Источник: https://habr.com/ru/post/519564/?utm_source=habrahabr&utm_medium=rss&utm_campaign=519564

Нажмите здесь для печати.