Рубрика «asr»

AI доступный каждому разработчику

2023-08-01 в 11:14, admin, рубрики: AI, asr, chatgpt, TTS, искусственный интеллект, машинное обучение, Программирование

Долгое время я прекрасно обходился без использования технологий искусственного интеллекта. Одни задачи можно было реализовать без всякого ИИ, а для других или готовых моделей не было или это были какие-то коммерческие облачные API.

В последнее время всё сильно изменилось и волна популярности искусственного интеллекта принесла множество крутейших моделей, позволяющих реализовать новые идеи или переосмыслить старые.

Казалось бы, есть и локально запускаемые аналоги ChatGPT или сервисов генерации изображений. Есть библиотеки типа Читать полностью »

Наши сервисы для бесплатного распознавания речи стали лучше и удобнее

2022-03-03 в 10:46, admin, рубрики: asr, natural language processing, silero, speech-to-text, голосовые интерфейсы, звук, машинное обучение, Развитие стартапа, распознавание речи

Сейчас для всех желающих доступны два наших сервиса для распознавания речи:

Бот в телеграме для коротких и не очень длинных аудио (мы не стали обходить ограничения телеграма, основная задача бота — распознавать голосовые сообщения);
Сервис audio-v-text.silero.ai для более длинных аудио, в котором можно скачать отчет в виде эксельки.

Сервис написан нашими собственными силами, работает на нашем собственном движке распознавания речи, без проксирования во внешние сервисы и с минимально возможным количеством зависимостей. В случае нарушения связности возможен оперативный перевод хостинга в другие регионы.

Мы провели и продолжаем работу над ошибками и внесли ряд улучшений для пользователей, о которых мы бы хотели рассказать.

Читать полностью »

Огромный открытый датасет русской речи версия 1.0

2019-11-05 в 7:28, admin, рубрики: annotated speech, asr, automatic speech recognition, data, open datasets, open source, speech corpus, speech recognition, STT, звук, машинное обучение, открытые данные

В начале этого года по ряду причин мы загорелись идеей создать самый большой открытый датасет русской речи. Подробнее о нашей мотивации и о том, как всё начиналось,
можно прочитать в этой статье — Огромный открытый датасет русской речи. С тех пор наш проект прошел через ряд масштабных изменений, мы в три раза увеличили количество данных, повысили их качество, добавили лейблы для спикеров и сейчас мы наконец готовы представить вам версию 1.0.

Также мы не готовы останавливаться на достигнутом и планируем продолжать делать интесивную работу над ошибками в последующих версиях и улучшать качество уже опубликованных данных. Версию 1.1 мы планируем посвятить масштабной работе над ошибками.

Читать полностью »

End2End-подход в задачах Automatic Speech Recognition

2019-09-25 в 9:54, admin, рубрики: asr, end-to-end, nlu, Алгоритмы, Блог компании МТС, звук, ИИ, искусственный интеллект, машинное обучение, МТС, нейросеть, распознавание речи

Что такое End2End-распознавание речи, и зачем же оно нужно? В чем его отличие от классического подхода? И почему для обучения хорошей модели на основе End2End нам потребуется огромное количество данных — в нашем сегодняшнем посте.

Классический подход к распознаванию речи

Прежде чем рассказать про End2End-подход, стоит сначала поговорить про классический подход к распознаванию речи. Что он из себя представляет?

End2End-подход в задачах Automatic Speech Recognition - 1
Читать полностью »

Огромный открытый датасет русской речи

2019-05-06 в 18:36, admin, рубрики: annotated speech, asr, automatic speech recognition, data, open datasets, open source, speech corpus, speech recognition, STT, звук, машинное обучение, открытые данные

Специалистам по распознаванию речи давно не хватало большого открытого корпуса устной русской речи, поэтому только крупные компании могли позволить себе заниматься этой задачей, но они не спешили делиться своими наработками.

Мы торопимся исправить это годами длящееся недоразумение.

Итак, мы предлагаем вашему вниманию набор данных из 4000 часов аннотированной устной речи, собранный из различных интернет-источников.

Подробности под катом.Читать полностью »

Тактичный робот: умеет слушать и не перебивает

2018-12-03 в 9:12, admin, рубрики: asr, javascript, TTS, voximplant, Блог компании Voximplant, боты, голосовое взаимодействие, Программирование, Разработка веб-сайтов, разработка мобильных приложений, распознавание речи

Распознавание речи (далее – ASR, Automatic Speech Recognition) используется при создании ботов и/или IVR, а также для автоматизированных опросов. Voximplant использует ASR, предоставляемый «корпорацией добра» – гугловское распознавание работает быстро и с высокой точностью, но… Как всегда, есть один нюанс. Человек может делать паузы даже в коротких предложениях, при этом нам нужна гарантия, что ASR не воспримет паузу как окончание ответа. Если ASR думает, что человек закончил говорить, то после «ответа» сценарий может включить синтез голоса со следующим вопросом – в это же самое время человек продолжит говорить и получит плохой пользовательский опыт: бот/IVR перебивает человека. Сегодня мы расскажем, как с этим бороться, чтобы ваши пользователи не огорчались от общения с железными помощниками.

Тактичный робот: умеет слушать и не перебивает - 1

Читать полностью »

Тренинг FastTrack. «Сетевые основы». «Строение роутеров, платформы маршрутизации от Cisco». Эдди Мартин. Декабрь, 2012

2018-03-08 в 20:59, admin, рубрики: asa, asr, Cisco, CME, CVO, dsp, esp, ips, ISM, jabber, MPLS, OSR, pbx, poe, pri, PSTN, QuantumFlow, WAN Accelerator, webex, Блог компании ua-hosting.company, Сетевые технологии, хостинг

Около года назад я заприметил интереснейшую и увлекательную серию лекций Эдди Мартина, который потрясающе доходчиво, благодаря своей истории и примерам из реальной жизни, а также колоссальному опыту в обучении, позволяет приобрести понимание довольно сложных технологий.

Тренинг FastTrack. «Сетевые основы». «Строение роутеров, платформы маршрутизации от Cisco». Эдди Мартин. Декабрь, 2012 - 1

Мы продолжаем цикл из 27 статей на основе его лекций:

Тренинг FastTrack. «Сетевые основы». «Понимание модели OSI». Часть первая. Эдди Мартин. Декабрь, 2012

Тренинг FastTrack. «Сетевые основы». «Понимание модели OSI». Часть вторая. Эдди Мартин. Декабрь, 2012

Тренинг FastTrack. «Сетевые основы». «Понимание архитектуры Cisco». Эдди Мартин. Декабрь, 2012

Тренинг FastTrack. «Сетевые основы». «Основы коммутации или свитчей». Часть первая. Эдди Мартин. Декабрь, 2012

Тренинг FastTrack. «Сетевые основы». «Основы коммутации или свитчей». Часть вторая. Эдди Мартин. Декабрь, 2012

Тренинг FastTrack. «Сетевые основы». «Свитчи от Cisco». Эдди Мартин. Декабрь, 2012

Тренинг FastTrack. «Сетевые основы». «Область использования сетевых коммутаторов, ценность свитчей Cisco». Эдди Мартин. Декабрь, 2012

Тренинг FastTrack. «Сетевые основы». «Основы беспроводной локальной сети». Часть первая. Эдди Мартин. Декабрь, 2012

Тренинг FastTrack. «Сетевые основы». «Основы беспроводной локальной сети». Часть вторая. Эдди Мартин. Декабрь, 2012

Тренинг FastTrack. «Сетевые основы». «Продукция в сфере беспроводных локальных сетей». Эдди Мартин. Декабрь, 2012

Тренинг FastTrack. «Сетевые основы». «Ценность беспроводных локальных сетей Cisco». Эдди Мартин. Декабрь, 2012

Тренинг FastTrack. «Сетевые основы». «Основы маршрутизации». Эдди Мартин. Декабрь, 2012

Тренинг FastTrack. «Сетевые основы». «Строение роутеров, платформы маршрутизации от Cisco». Эдди Мартин. Декабрь, 2012

И вот тринадцатая из них.
Читать полностью »

Freeform распознавание речи в реальном времени и распознавание записей звонков

2016-11-11 в 8:03, admin, рубрики: asr, Google, Google API, speech recognition, voximplant, Блог компании Voximplant, Программирование, Разработка веб-сайтов, Разработка систем связи

Мы уже писали про возможность создания сценариев с распознаванием речи, но тогда функционал данной системы был несколько ограничен. Не так давно компания Google предоставила возможность использовать свои возможности распознавания речи и мы, конечно же, этим воспользовались. Многие компании реализуют разные сценария взаимодействия со своими клиентами с помощью Voximplant и автоматизация этого взаимодействия с помощью распознавания речи или уменьшение издержек на поиск и фильтрацию определенных записей с определенным контентом всегда остаются важными задачами для бизнеса. Далее мы подробно расскажем про несколько основных кейсов, ради которых делали интеграцию, и про проблемы, с которыми столкнулись в процессе, а также приведем несколько примеров использования нового функционала.
Читать полностью »

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «asr»

AI доступный каждому разработчику

Наши сервисы для бесплатного распознавания речи стали лучше и удобнее

Огромный открытый датасет русской речи версия 1.0

End2End-подход в задачах Automatic Speech Recognition

Классический подход к распознаванию речи

Огромный открытый датасет русской речи

Тактичный робот: умеет слушать и не перебивает

Тренинг FastTrack. «Сетевые основы». «Строение роутеров, платформы маршрутизации от Cisco». Эдди Мартин. Декабрь, 2012

Freeform распознавание речи в реальном времени и распознавание записей звонков

Архив

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «asr»

Классический подход к распознаванию речи

Новости

Актуальные темы

Архив