- PVSM.RU - https://www.pvsm.ru -

Сейчас для всех желающих доступны два наших сервиса для распознавания речи:
Сервис написан нашими собственными силами, работает на нашем собственном движке распознавания речи, без проксирования во внешние сервисы и с минимально возможным количеством зависимостей. В случае нарушения связности возможен оперативный перевод в другие регионы.
Мы провели и продолжаем работу над ошибками и внесли ряд улучшений для пользователей, о которых мы бы хотели рассказать.
.m4a и .aac, которые в веб-сервисе мы обрабатывали с самого начала;audio/m4a;В целом мы получили несколько десятков положительных отзывов от пользователей виде личных сообщений в телеграме и почте. Также когда что-то ломается затягивается выкатываение новых фич (последние разы мы уже сами ломали сервисы, а не оно само ломалось), пользователи помогают тем, что сразу пишут в телеграм или на почту.
Также мы слышали энное количество разных запросов на новые фичи (в основном люди конечно жаловались на неработающие форматы или на ошибки), но больше всего люди упоминали возможность выключить метки времени в распознанном тексте. Это в принципе означает необходимость "кастомизации" бота под каждого пользователя. И хотя такая возможность нами была заложена в рамках заведения капчи, мы решили пока оставить бота максимально простым, не требующим настроек.
Нам несколько раз задавали такой вопрос. Мы не храним имена, фамилии, персональные данные пользователей сервиса — хотя бы по той простой причине, что мы к ним просто не имеем доступа и они нам не нужны. Телеграм отдает весьма ограниченные данные (и мы храним только ID групп и пользователей).
Мы не собираем эти данные для перепродажи их инвесторам и третьим лицам. Мы вообще не считаем бот коммерческим продуктом.
С другой стороны, чтобы распознавать аудио в группе, бот должен иметь к ним доступ. Мы фильтруем все сообщения в группах на предмет наличия нужных нам форматов аудио, и только их скачиваем и потом распознаем.
Тут сразу нужно опредилиться с понятиями. Поскольку аудио могут быть сколь угодно длинными или короткими — одним запросом мы считаем непрерывный поток речи внутри аудио. Обычно до 7 — 15 секунд. Также мы не сразу стали вести статистику по сессиям и группам в телеграме, плюс был пробел в статистике на несколько дней.


Из графиков могу сделать три вывода:
Хотим добавить, что мы не паникуем, продолжаем работу и остаемся людьми, чего и вам желаем.
Автор:
nurtdinovadf
Источник [4]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/raspoznavanie-rechi/372649
Ссылки в тексте:
[1] Бот в телеграме: https://t.me/silero_audio_bot
[2] Сервис audio-v-text.silero.ai: https://audio-v-text.silero.ai
[3] хостинга: https://www.reg.ru/?rlink=reflink-717
[4] Источник: https://habr.com/ru/post/654227/?utm_source=habrahabr&utm_medium=rss&utm_campaign=654227
Нажмите здесь для печати.