Рубрика «распознавание речи»

Наши сервисы для бесплатного распознавания речи стали лучше и удобнее

2022-03-03 в 10:46, admin, рубрики: asr, natural language processing, silero, speech-to-text, голосовые интерфейсы, звук, машинное обучение, Развитие стартапа, распознавание речи

Сейчас для всех желающих доступны два наших сервиса для распознавания речи:

Бот в телеграме для коротких и не очень длинных аудио (мы не стали обходить ограничения телеграма, основная задача бота — распознавать голосовые сообщения);
Сервис audio-v-text.silero.ai для более длинных аудио, в котором можно скачать отчет в виде эксельки.

Сервис написан нашими собственными силами, работает на нашем собственном движке распознавания речи, без проксирования во внешние сервисы и с минимально возможным количеством зависимостей. В случае нарушения связности возможен оперативный перевод хостинга в другие регионы.

Мы провели и продолжаем работу над ошибками и внесли ряд улучшений для пользователей, о которых мы бы хотели рассказать.

Читать полностью »

Telegram-бот Silero бесплатно переводит речь в текст

2021-11-25 в 12:40, admin, рубрики: silero, speech recognition, telegram, голосовые интерфейсы, искусственный интеллект, машинное обучение, мессенджеры, Развитие стартапа, распознавание речи, телеграм-бот

Мы сделали бесплатного телеграм-бота, который переводит аудио в текст. В отличие от нашего бесплатного публичного решения для транскрибации длинных аудио, этот бот скорее настроен для удобства работы с короткими голосовыми сообщениями, заметками и аудио средней длины (несколько минут).

Боту можно послать аудио как напрямую, так и добавить в группу. В группе бот будет реагировать на все аудиофайлы (но сообщения об ошибках выводиться не будут). Более подробно об ограничениях и особенностях работы можно узнать в методах /help и /faq.

Основная UX фишка работы бота — проработанный и удобный формат чтения и навигации по распознанным сообщениям и заметкам (а не стена текста).

Читать полностью »

Прослушка с помощью лидаров пылесоса — новая угроза частной жизни. Делаем лазерный микрофон в домашних условиях

2020-11-22 в 16:27, admin, рубрики: Intersect.host, LidarPhone, Блог компании Intersect.Host, гаджеты, Интернет вещей, информационная безопасность, лазерный микрофон, лидар, Научно-популярное, прослушка, пылесос, распознавание речи

Прослушка с помощью лидаров пылесоса — новая угроза частной жизни. Делаем лазерный микрофон в домашних условиях - 1

Подслушивание личных разговоров — одна из самых распространённых и неприятных угроз приватности. Не зря многие заклеивают микрофоны и камеры на ноутбуках, чтобы сохранить в секрете самые личные и приватные моменты. Что ж, пришло время заклеивать также и лидары на вашем умном пылесосе. Потому что учёные из Национального университета Сингапура нашли способ прослушки помещений с помощью пылесоса.
Читать полностью »

Facebook купит у пользователей их голосовые записи ради улучшения функции распознавания речи

2020-02-21 в 10:47, admin, рубрики: Facebook, Viewpoints, голосовые сообщения, звук, искусственный интеллект, распознавание речи, Социальные сети и сообщества

Facebook намерен выкупить у некоторых пользователей голосовые записи, которые собирается использоваться для улучшения своей технологии распознавания речи. На такой шаг компания решилась после того, как ее уличили в прослушивании и расшифровке голосовых записей клиентов без их ведома. Читать полностью »

Нейросеть научили распознавать речь по губам при помощи алгоритма распознавания записи голоса

2019-12-06 в 16:14, admin, рубрики: Блог компании Madrobots, искусственный интеллект, машинное обучение, Научно-популярное, нейросети, распознавание речи

Нейросеть научили распознавать речь по губам при помощи алгоритма распознавания записи голоса - 1
Hal 9000 прекрасно читал по губам, правда, по-английски

Нейросети сейчас умеют многое, и постепенно их обучают все большему количеству умений. На днях стало известно о том, что объединенная команда исследователей из США и Китая смогла обучить нейросеть распознавать речь по губам с высокой степенью точности.

Добиться этого удалось благодаря дополнительному элементу — алгоритму распознавания речи по аудиозаписям. Далее алгоритм использовался в качестве обучающей системы уже для второго алгоритма, который распознавал речь по видеозаписям.
Читать полностью »

Бэрримор, что за шум вокруг Voximplant? Внедрили веб-сокеты, сэр

2019-11-25 в 9:04, admin, рубрики: cloud services, google cloud, javascript, protocol, speech recognition, voximplant, WebSocket, websockets, Блог компании Voximplant, звук, облачные сервисы, Программирование, Разработка веб-сайтов, распознавание речи

WebSocket — это прогрессивный стандарт полнодуплексной (двусторонней) связи между клиентом и сторонним сервисом в режиме реального времени. Веб-сокеты используются для организации непрерывного обмена данными без разрыва соединения и дополнительных HTTP-запросов.

И мы рады сообщить вам, что все это стало возможным в Voximplant благодаря новому модулю VoxEngine, который называется – сюрприз – WebSocket. Отныне вы сможете передавать текст и аудио, пользуясь преимуществами веб-сокетов в полной мере. Проще говоря, у вас появился еще один инструмент, чтобы прокачать ваше приложение.

Из этой статьи вы узнаете, как создать исходящее WebSocket-соединение, передать через него аудиопоток и преобразовать его в текст с помощью Google Cloud Speech-to-Text API.Читать полностью »

Высококачественная, легковесная и адаптируемая технология Text-to-Speech с использованием LPCNet

2019-10-29 в 9:13, admin, рубрики: deep neural networks, speech recognition, TTS, Блог компании Voximplant, глубокие нейронные сети, звук, искусственный интеллект, машинное обучение, Программирование, распознавание речи

Последние достижения в области глубокого обучения привносят существенные улучшения в развитие систем синтеза речи (далее – TTS). Это происходит благодаря применению более эффективных и быстрых методов изучения голоса и стиля говорящих, а также благодаря синтезу более естественной и качественной речи.Читать полностью »

Почему Kaldi хорош для распознавания речи?

2019-10-08 в 16:06, admin, рубрики: kaldi, natural language processing, изучение языков, Компьютерная лингвистика, машинное обучение, нейросети, распознавание речи

Почему мне (и, надеюсь, вам) интересно распознавание речи? Во-первых, это направление является одним из самых популярных по сравнению с другими задачами компьютерной лингвистики, поскольку технология распознавания речи сейчас используется почти повсеместно – от распознавания простого «да/нет» в автоматическом колл-центре банка до способности поддерживать «светскую беседу» в «умной колонке» типа «Алисы». Во-вторых, чтобы система распознавания речи была качественным, необходимо найти самые эффективные средства для создания и настройки такой системы (одному из подобных средств и посвящена эта статья). Наконец, несомненным «плюсом» выбора специализации в области распознавания речи лично для меня является то, что для исследований в этой области необходимо владеть как программистскими, так и лингвистическими навыками. Это весьма стимулирует, заставляя приобретать знания в разных дисциплинах.
Читать полностью »

Исследование: если покупатель понимает, что говорит с чат-ботом, то покупка не состоится вовсе

2019-10-02 в 9:08, admin, рубрики: Блог компании Voximplant, искусственный интеллект, машинное обучение, Программирование, распознавание речи, распознавание эмоций, Чат-боты

Нет времени объяснять, вот главные постулаты сегодняшнего перевода:

чат-боты не имеют предельных издержек и продают в 4 раза больше, чем люди;
вероятность продажи падает на 79%, если люди понимают, что говорят с роботом;
потребители воспринимают роботов как менее компетентных и эмпатичных.

Под катом – подробности исследования и инсайты от ученых. Приятного чтения!

Исследование: если покупатель понимает, что говорит с чат-ботом, то покупка не состоится вовсе - 1

Читать полностью »

End2End-подход в задачах Automatic Speech Recognition

2019-09-25 в 9:54, admin, рубрики: asr, end-to-end, nlu, Алгоритмы, Блог компании МТС, звук, ИИ, искусственный интеллект, машинное обучение, МТС, нейросеть, распознавание речи

Что такое End2End-распознавание речи, и зачем же оно нужно? В чем его отличие от классического подхода? И почему для обучения хорошей модели на основе End2End нам потребуется огромное количество данных — в нашем сегодняшнем посте.

Классический подход к распознаванию речи

Прежде чем рассказать про End2End-подход, стоит сначала поговорить про классический подход к распознаванию речи. Что он из себя представляет?

End2End-подход в задачах Automatic Speech Recognition - 1
Читать полностью »

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «распознавание речи»

Наши сервисы для бесплатного распознавания речи стали лучше и удобнее

Telegram-бот Silero бесплатно переводит речь в текст

Прослушка с помощью лидаров пылесоса — новая угроза частной жизни. Делаем лазерный микрофон в домашних условиях

Facebook купит у пользователей их голосовые записи ради улучшения функции распознавания речи

Нейросеть научили распознавать речь по губам при помощи алгоритма распознавания записи голоса

Бэрримор, что за шум вокруг Voximplant? Внедрили веб-сокеты, сэр

Высококачественная, легковесная и адаптируемая технология Text-to-Speech с использованием LPCNet

Почему Kaldi хорош для распознавания речи?

Исследование: если покупатель понимает, что говорит с чат-ботом, то покупка не состоится вовсе

End2End-подход в задачах Automatic Speech Recognition

Классический подход к распознаванию речи

Архив

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «распознавание речи»

Классический подход к распознаванию речи

Новости

Актуальные темы

Архив