Рубрика «speech recognition» - 2

Распознавание эмоций с помощью сверточной нейронной сети

2019-07-26 в 13:34, admin, рубрики: convolutional neural network, speech recognition, Блог компании Voximplant, звук, искусственный интеллект, машинное обучение, Программирование, распознавание речи, сверточные нейронные сети

Распознавание эмоций всегда было захватывающей задачей для ученых. В последнее время я работаю над экспериментальным SER-проектом (Speech Emotion Recognition), чтобы понять потенциал этой технологии – для этого я отобрал наиболее популярные репозитории на Github и сделал их основой моего проекта.

Прежде чем мы начнем разбираться в проекте, неплохо будет вспомнить, какие узкие места есть у SER.
Читать полностью »

Огромный открытый датасет русской речи

2019-05-06 в 18:36, admin, рубрики: annotated speech, asr, automatic speech recognition, data, open datasets, open source, speech corpus, speech recognition, STT, звук, машинное обучение, открытые данные

Специалистам по распознаванию речи давно не хватало большого открытого корпуса устной русской речи, поэтому только крупные компании могли позволить себе заниматься этой задачей, но они не спешили делиться своими наработками.

Мы торопимся исправить это годами длящееся недоразумение.

Итак, мы предлагаем вашему вниманию набор данных из 4000 часов аннотированной устной речи, собранный из различных интернет-источников.

Подробности под катом.Читать полностью »

A Simple Way to Talk To Your Website

2019-03-30 в 8:29, admin, рубрики: api, css, speech recognition, voice recognition, web developement, Разработка веб-сайтов

Technology and markets are going hand in hand today. It's going so close that any whiff of a tech headway and social media is going up in a frenzy about it. Writers are filling pages after pages as if it's already here. Shares ride bull or bear, and newspapers print a string of capital letters.
Читать полностью »

О чем говорит YouTube

2018-12-18 в 9:22, admin, рубрики: AI, ffmpeg, ml, python, speech recognition, speech2text, TensorFlow, YouTube, искусственный интеллект, машинное обучение

На заре машинного обучения большинство решений выглядели очень странно, обособленно и необычно. Сегодня множество ML алгоритмов уже выстраиваются в привычный для программиста набор фреймворков и тулкитов, с которыми можно работать, не вдаваясь в детали их реализации.

К слову, я противник такого поверхностного подхода, но для своих коллег хотел бы показать, что эта отрасль движется семимильными шагами и нет ничего сложного, чтобы применять ее наработки в продакшен проектах.

Для примера я покажу, как можно помочь пользователю найти нужный видеоматериал среди сотен других в нашем сервисе документооборота.

В моем проекте пользователи создают и обмениваются сотнями различных материалов: текстом, картинками, видеороликами, статьями, документами в различных форматах.

Поиск по документам представляется достаточно просто. Но что делать с поиском по мультимедиа контенту? Для полноценного сервиса пользователя надо обязать заполнить описание, дать название видеоролику или картинке, не помешает несколько тегов. К сожалению, далеко не все хотят тратить время на подобные улучшения контента. Обычно пользователь загружает ссылку на youtube, сообщает что это новое видео и нажимает сохранить. Что же делать сервису с таким “серым” контентом. Первая идея — спросить у YouTube? Но YouTube тоже наполняют пользователи (часто это один и тот же пользователь). Часто видеоматериал может быть и не с Youtube сервиса.
Так мне пришла идея научить наш сервис “слушать” видеоролик и самостоятельно “понимать”, о чем он.
Читать полностью »

Глубокие нейронные сети для автоматической оценки звонков

2018-11-02 в 14:11, admin, рубрики: deep neural networks, speech recognition, Блог компании Voximplant, глубокие нейронные сети, звук, машинное обучение, Программирование, распознавание речи

Оценка звонков – ключевая часть контроля качества для колл-центров. Она позволяет организациям тонко подстраивать рабочий процесс, чтобы операторы могли выполнять работу быстрее и эффективнее, а также избегать бессмысленной рутины.

Памятуя о том, что колл-центр должен быть эффективным, мы работали над автоматизацией оценки звонков. В итоге мы придумали алгоритм, который обрабатывает звонки и распределяет их на две группы: подозрительные и нейтральные. Все подозрительные звонки сразу же отправлялись в команду оценки качества.

Глубокие нейронные сети для автоматической оценки звонков - 1

Читать полностью »

Реализация голосового справочника на базе YandexSpeechKit

2018-07-16 в 7:38, admin, рубрики: asterisk, python, speech recognition, многобуков, ненормальное программирование

На просторах интернета представлены различные реализации, но, на мой взгляд, все они достаточно простые. Хочу представить свой вариант голосового справочника под астериск.

Примечание: я не являюсь профессиональным программистом, и, возможно, некоторые решения могут показаться вам дикими. Некоторые приемы могут быть устаревшими. Я готов принять критику и исправить систему к лучшему.

Краткое описание возможностей:

Пользователь попадает в IVR, произносит свой запрос и, в большинстве случаев, попадает туда, куда ему надо. К системе также прикручена статистика с записью в таблицу mysql.
Коротко о компании и сети, в которой развернута данная система:
~1000 телефонов, около 50 отделов

Читать полностью »

Свой Bot за несколько часов, или поговорим о пиве с машиной

2017-05-14 в 16:11, admin, рубрики: bot, java, open source, speech recognition, spring, spring boot, Анализ и проектирование систем, машинное обучение, Программирование

Тема по улучшению взаимодействия машин и человека сейчас актуальна как никогда. Появились технические возможности для перехода от модели «100 кликов» к парадигме «скажи, что ты хочешь». Да, я имею в виду различные боты, которые уже несколько лет разрабатывают все кому не лень. К примеру, многие крупные компании, не только технологические, но и retail, logistics, банки в данный момент ведут активный Research&Design в этой области.

Простой пример, как, например, происходит процесс выбора товаров в каком-либо интернет магазине? Куча списков, категорий, в которых я роюсь и что-то выбираю. It suck's. Или, допустим, заходя в интернет банк, я сталкиваюсь с различными меню, если я хочу сделать перевод, то я должен выбрать соответствующие пункты в меню и ввести кучу данных, если же я хочу посмотреть список транзакций, то опять таки, я должен напрягать как мозг, так и указательный палец. Гораздо проще и удобнее было бы зайти на страницу, и просто сказать: «Я хочу купить литр молока и пол-литра водки», или просто спросить у банка: «Что с деньгами?».

В список профессий, которым грозит вымирание в достаточно близкой перспективе, добавляются: теллеры, операторы call центров, и многие другие. И на простом примере, реализовать который у меня заняло часов 7, я покажу, как можно достаточно просто сделать интеграцию распознавания речи, и выявления сущностей, на примере открытого Wit.Ai (Google Speech API интеграция также включена)
Свой Bot за несколько часов, или поговорим о пиве с машиной - 1
Читать полностью »

Speech AI с Python & Google API

2017-03-09 в 15:57, admin, рубрики: Google API, Google Speech api, machine learning, python, speech recognition, speech synthesys, машинное обучение, Программирование

Speech AI с Python & Google API

Добрый день!

Совсем недавно пришла в голову идея сделать "говорилку" на русском языке. В голове была простенькая схема наподобие:

1) Распознать речь с микрофона
2) Придумать более — менее разумный ответ.
В этом пункте можно сделать много интересного.
Например реализовать управление чем — нибудь физическим и не очень.
3) Преобразовать этот самый ответ в речь и воспроизвести.

Самое интересное, что для всех этих пунктов нашлись библиотеки под Python, чем я и воспользовался.

В итоге получилась связка, практически не зависящая от выбранного в качестве разговорного языка.

Читать полностью »

Freeform распознавание речи в реальном времени и распознавание записей звонков

2016-11-11 в 8:03, admin, рубрики: asr, Google, Google API, speech recognition, voximplant, Блог компании Voximplant, Программирование, Разработка веб-сайтов, Разработка систем связи

Мы уже писали про возможность создания сценариев с распознаванием речи, но тогда функционал данной системы был несколько ограничен. Не так давно компания Google предоставила возможность использовать свои возможности распознавания речи и мы, конечно же, этим воспользовались. Многие компании реализуют разные сценария взаимодействия со своими клиентами с помощью Voximplant и автоматизация этого взаимодействия с помощью распознавания речи или уменьшение издержек на поиск и фильтрацию определенных записей с определенным контентом всегда остаются важными задачами для бизнеса. Далее мы подробно расскажем про несколько основных кейсов, ради которых делали интеграцию, и про проблемы, с которыми столкнулись в процессе, а также приведем несколько примеров использования нового функционала.
Читать полностью »

Speech.framework в iOS 10

2016-07-06 в 10:05, admin, рубрики: e-legion, iOS 10, ios development, speech framework, speech recognition, Блог компании e-Legion Ltd., разработка под iOS

Speech.framework в iOS 10 - 1

Обзор

Очередная конференция — очередные новшества. Судя по настроениям нас ждет отмена клавиатур и устройств ввода. Apple в iOS 10 представила разработчикам возможность работать с речью. Мой коллега Геор Касапиди уже описал возможности Siri в своей статье, а я расскажу о Speech.framework. Рассмотренный в статье материал реализован в демо-приложении what_i_say. На момент написания статьи официальной документации нет, так что будем основываться на том, что рассказал Henry Mason.Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «speech recognition» - 2

Распознавание эмоций с помощью сверточной нейронной сети

Огромный открытый датасет русской речи

A Simple Way to Talk To Your Website

О чем говорит YouTube

Глубокие нейронные сети для автоматической оценки звонков

Реализация голосового справочника на базе YandexSpeechKit

Свой Bot за несколько часов, или поговорим о пиве с машиной

Speech AI с Python & Google API

Speech AI с Python & Google API

Добрый день!

Freeform распознавание речи в реальном времени и распознавание записей звонков

Speech.framework в iOS 10

Обзор