Рубрика «распознавание речи» - 2

Распознавание эмоций с помощью сверточной нейронной сети

2019-07-26 в 13:34, admin, рубрики: convolutional neural network, speech recognition, Блог компании Voximplant, звук, искусственный интеллект, машинное обучение, Программирование, распознавание речи, сверточные нейронные сети

Распознавание эмоций всегда было захватывающей задачей для ученых. В последнее время я работаю над экспериментальным SER-проектом (Speech Emotion Recognition), чтобы понять потенциал этой технологии – для этого я отобрал наиболее популярные репозитории на Github и сделал их основой моего проекта.

Прежде чем мы начнем разбираться в проекте, неплохо будет вспомнить, какие узкие места есть у SER.
Читать полностью »

Специалисты МТИ создали нейросеть, которая воссоздает внешность человека по голосу

2019-05-31 в 16:03, admin, рубрики: искусственный интеллект, машинное обучение, распознавание голома, распознавание речи, реконструкция лица

Специалисты МТИ создали нейросеть, которая воссоздает внешность человека по голосу - 1

23 мая исследователи Массачусетского технологического института в сотрудничестве с командой Google AI представили итоги работы над нейросетью Speech2Face, которая может по короткой аудиозаписи со звучащей речью реконструировать внешность говорящего. Разработчики не преследовали цели добиться точного сходства – проект носил экспериментальный характер и был призван показать, какой объем информации о человеке можно получить, прослушивая его голос.
Читать полностью »

ИИ Microsoft генерирует реалистичную речь с минимальным обучением

2019-05-27 в 14:58, admin, рубрики: будущее здесь, генерация речи, искусственный интеллект, машинное обучение, распознавание речи, синтезированная речь

В своем новом проекте компании Microsoft удалось значительно усовершенствовать технологии генерации речи. Разработанную нейросеть отличает естественное произношение, практически неотличимая от человеческой, и малый объем размеченной выборки, необходимой для обучения.
Читать полностью »

Как я помогал Алисе не откликаться на другие имена. Стажировка в Яндексе

2019-02-04 в 10:00, admin, рубрики: алиса, Блог компании Яндекс, голосовые помощники, декодер, диалоговые системы, искусственный интеллект, Карьера в IT-индустрии, нейронные сети, Промышленное программирование, разработка мобильных приложений, распознавание речи, речевые технологии, споттинг, стажировка, стажировка в it, стажировка в яндексе

Привет. Меня зовут Алексей Рак, я разработчик голосового помощника Алиса в минском офисе Яндекса. Эту позицию я получил, пройдя здесь, в этой же команде, трехмесячную стажировку в прошлом году. О ней я и собираюсь вам рассказать. Если хотите сами попробовать — вот ссылка на стажировку 2019 года.

Как я помогал Алисе не откликаться на другие имена. Стажировка в Яндексе - 1

Читать полностью »

Взлом Amazon Echo и Google Home для защиты приватности

2019-01-16 в 8:05, admin, рубрики: amazon echo, diy или сделай сам, google home, keras, Project Alias, Raspberry Pi, ReSpeaker, TensorFlow, алиса, Блог компании GlobalSign, Интернет вещей, информационная безопасность, Разработка на Raspberry Pi, распознавание речи

Взлом Amazon Echo и Google Home для защиты приватности - 1

Специалисты по безопасности скептически относятся к понятиям «умный дом» и «интернет вещей». Производители норовят собрать побольше данных о пользователях, что чревато утечками. Недавно Amazon отправила по неверному адресу 1700 разговоров одного пользователя с домашним помощником Alexa.

Это единичный случай, но Amazon сохраняет аудиозаписи на своих серверах, как и Google. Домашний помощник вроде Amazon Echo и Google Home — это полноценный жучок, который пользователь сам устанавливает в доме, добровольно соглашаясь на прослушку. Пока нет доказательств, что такие устройства ведут запись без произнесения слова-триггера, но технически ничто не мешает им это делать.

Project Alias призван изменить положение вещей и вернуть контроль людям.
Читать полностью »

Разработка Adblock Radio

2019-01-11 в 13:39, admin, рубрики: Adblock Radio, cmu sphinx, keras, landmark, shazam, TensorFlow, Алгоритмы, блокировка рекламы, диаризация, звук, звуковые отпечатки, копирайт, машинное обучение, распознавание речи, скрытые марковские модели, Софт

Разработка Adblock Radio - 1

tl;dr: Adblock Radio распознаёт аудиорекламу с помощью машинного обучения и Shazam-подобных техник. Основной движок с открытым исходным кодом: используйте его в своих продуктах! Можно объединить усилия для поддержки большего количества радиостанций и подкастов.

Мало кому нравится слушать рекламу на радио. Я запустил проект AdblockRadio.com, чтобы слушатели могли пропускать рекламу на своём любимом интернет-радио. Алгоритм опубликован с открытым исходным кодом, а в этой статье описывается, как он работает.

Adblock Radio уже протестировали на реальных данных более 60 радиостанций в семи странах. Он также совместим с подкастами и работает довольно хорошо!
Читать полностью »

Тактичный робот: умеет слушать и не перебивает

2018-12-03 в 9:12, admin, рубрики: asr, javascript, TTS, voximplant, Блог компании Voximplant, боты, голосовое взаимодействие, Программирование, Разработка веб-сайтов, разработка мобильных приложений, распознавание речи

Распознавание речи (далее – ASR, Automatic Speech Recognition) используется при создании ботов и/или IVR, а также для автоматизированных опросов. Voximplant использует ASR, предоставляемый «корпорацией добра» – гугловское распознавание работает быстро и с высокой точностью, но… Как всегда, есть один нюанс. Человек может делать паузы даже в коротких предложениях, при этом нам нужна гарантия, что ASR не воспримет паузу как окончание ответа. Если ASR думает, что человек закончил говорить, то после «ответа» сценарий может включить синтез голоса со следующим вопросом – в это же самое время человек продолжит говорить и получит плохой пользовательский опыт: бот/IVR перебивает человека. Сегодня мы расскажем, как с этим бороться, чтобы ваши пользователи не огорчались от общения с железными помощниками.

Тактичный робот: умеет слушать и не перебивает - 1

Читать полностью »

Глубокие нейронные сети для автоматической оценки звонков

2018-11-02 в 14:11, admin, рубрики: deep neural networks, speech recognition, Блог компании Voximplant, глубокие нейронные сети, звук, машинное обучение, Программирование, распознавание речи

Оценка звонков – ключевая часть контроля качества для колл-центров. Она позволяет организациям тонко подстраивать рабочий процесс, чтобы операторы могли выполнять работу быстрее и эффективнее, а также избегать бессмысленной рутины.

Памятуя о том, что колл-центр должен быть эффективным, мы работали над автоматизацией оценки звонков. В итоге мы придумали алгоритм, который обрабатывает звонки и распределяет их на две группы: подозрительные и нейтральные. Все подозрительные звонки сразу же отправлялись в команду оценки качества.

Глубокие нейронные сети для автоматической оценки звонков - 1

Читать полностью »

AlterEgo: девайс, который умеет читать (некоторые) мысли

2018-08-02 в 10:59, admin, рубрики: Блог компании Everyday Tools, будущее здесь, искусственный интеллект, машинное обучение, Научно-популярное, носимые гаджеты, распознавание речи

В начале апреля научный сотрудник Массачусетского технологического института Арнав Капур двадцати четырех лет добавил на YouTube короткое видео. В ролике показано, как он гуляет по студенческому городку, переходя из одной локации в другую; на правой стороне лица у него закреплено белое пластиковое приспособление.

AlterEgo: девайс, который умеет читать (некоторые) мысли - 1

Сначала он проходит мимо ряда велосипедов, припаркованных возле подтаявших сугробов, губы у него сомкнуты, а на экране высвечиваются не озвученные мысли. Появляется надпись: «Время?», и мужской голос отвечает: «Десять часов тридцать пять минут». В следующей сцене Капур делает покупки в местном магазине. Цена каждого товара, который он бросает в корзину (туалетная бумага, сэндвич по-итальянски, консервированные персики) отображается на экране. «Общая сумма — 10.07 $», — отзывается мужской голос. В последней сцене Капур двигает по экрану курсор, по всем признакам силой мысли.

Капур приехал из Нью-Дели, чтобы устроиться в Media Lab Массачусетского технологического института и создавать носимые устройства, которые органично интегрировали бы технологии в нашу повседневную жизнь. Чтобы больше не тянуться за телефоном, не стоять уставившись в экран, не ходить с опущенными глазами и не выпадать из реальности, чтобы включиться в процесс.

Это прозвучит неправдоподобно, но AlterEgo — девайс, работающий беззвучно, без голосового управления и наушников, который Капур разрабатывал последние два года — сейчас уже настолько успешно считывает его мысли, что он может заказать такси в Uber, не произнеся ни единого слова.
Читать полностью »

Dialogflower — Google Dialogflow для Яндекс Алисы

2018-06-01 в 7:47, admin, рубрики: diy или сделай сам, алиса, голосовое управление, искусственный интеллект, Программирование, распознавание речи, Яндекс API, яндекс.поиск

Несколько месяцев назад Яндекс запустил бету своего голосового помощника «Алиса», в которой открыл ее API. И вот совсем недавно выкатил все в паблик. Теперь миллионы пользователей могут запускать различные функции и сервисы голосом прямо из мобильного поиска, навигатора и из Яндекс браузера. Неудивительно, что голосовых навыков становится все больше. Но API диалогов предполагает, что вы должны уметь программировать, у вас должен быть свой сервер с HTTPS, и вдобавок вы должны уметь обрабатывать запросы на естественном языке…

Между тем уже давно существует бесплатный и довольно удобный конструктор диалогов от Google под названием Dialogflow. Он конечно же не поддерживает протокол Алисы из коробки, вот и пришла мысль исправить эту ситуацию, чтобы разработчики (и не только) быстро и без серверов создавали навыки для Алисы, которые умеют понимать естественную речь и контекст диалога.
Читать полностью »

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «распознавание речи» - 2

Распознавание эмоций с помощью сверточной нейронной сети

Специалисты МТИ создали нейросеть, которая воссоздает внешность человека по голосу

ИИ Microsoft генерирует реалистичную речь с минимальным обучением

Как я помогал Алисе не откликаться на другие имена. Стажировка в Яндексе

Взлом Amazon Echo и Google Home для защиты приватности

Разработка Adblock Radio

Тактичный робот: умеет слушать и не перебивает

Глубокие нейронные сети для автоматической оценки звонков

AlterEgo: девайс, который умеет читать (некоторые) мысли

Dialogflower — Google Dialogflow для Яндекс Алисы

Архив

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «распознавание речи» - 2

Новости

Актуальные темы

Архив