Рубрика «распознавание речи»

Картинка: freepik.com - vecstock

Картинка: freepik.com - vecstock

При построении разнообразных автоматизированных систем часто возникает потребность, чтобы эта система предоставляла какую-то обратную связь. Читать полностью »

Один STT-сервис дал 60-70% точности на специфической лексике (топонимы, названия улиц, профессиональные термины). Два сервиса параллельно + взвешенное голосование + AI-fusion для спорных случаев дали 95%+ точности. Время обработки 5-8 секунд, стоимость $70-130/месяц при 1000 сообщений в день. В статье — полный разбор архитектуры, алгоритмы scoring, примеры кода и расчёт экономики.

Содержание

  1. Почему один STT оказалось недостаточно

  2. Эволюция решения: от 60% к 95%

  3. Архитектура Multi-API Ensemble

  4. Взвешенное голосование: математика выбора

  5. AI-fusion: когда голосования недостаточно

  6. Читать полностью »

Радар для прослушки телефона с трёх метров - 1

Современные технологии машинного обучения (ML) позволяют извлечь полезный сигнал из массива данных, который раньше считался просто шумом. Это открывает новые возможности для разведки и шпионажа, в том числе прослушки телефонов и слежки за гражданами.

Читать полностью »

Привет, Habr

Сделал забавного бота который стал ещё и довольно полезным поэтому решил им поделиться. Хотелось сделать бота, который:

  • По запросу пойдёт в интернет и найдёт то, что мы обсуждаем прямо сейчас, так как он видит контекст беседы и часто понимает, о чём идёт речь, и в ответе даст ссылки на источники, которые найдёт

  • Понимает контекст беседы и не требует объяснять ему каждую деталь

  • Знает какой сейчас год и точное время и учитывает это при поиске информации и при ответах

  • Имеет характер и помнит, кто и как к нему относится в этом чате

  • Расшифровывает голосовые сразу для всего чатаЧитать полностью »

В прошлой статье мы рассказывали о GigaAM — семействе открытых акустических моделей для русского языка и их дообученных вариантах под распознавание речи и эмоций. Сейчас мы представляем GigaAM-v3 — новую версию модели, которая ещё сильнее поднимает планку качества open source-моделей распознавания речи (Automatic Speech Recognition, ASR) на русском языке.

В этом посте расскажем:

  • что такое HuBERT-CTC и почему он даёт прирост качества минимум 10 % даже по сравнению с распространёнными в индустрии методами предобучения;

  • Читать полностью »

Привет! Меня зовут Иван Володин, я разработчик DD Planet, и я задался целью сделать для себя максимально удобный скрипт для набора текста речью.

Голосовой ввод для Windows через Vosk своими руками - 1

Содержание

«Weather» или «leather»? Почему будущее голосового ИИ не в улучшении микрофонов (на примере Google S2R) - 1

«Чай. Эрл‑Грей. Горячий». Помните эту фразу капитана Пикара из «Звёздного пути»?

Читать полностью »

Как Google S2R (speech-to-retrieval) решает проблему непонимания голосовых запросов - 1

«Чай. Эрл‑Грей. Горячий». Помните эту фразу капитана Пикара из «Звёздного пути»?

Читать полностью »

Авторы статьи:  Михаил Кургузов, Владислава Гуза

Коротко о нас

Привет! Мы — сотрудники команды локализации и переводов в структуре подразделения, которое оказывает услуги по внедрению программных продуктов. Помогаем внедрять информационные системы и сервисы: осуществляем их локализацию, а также предоставляем обучение и поддержку на языке пользователя.

Цель статьи

В этой статье мы хотим рассказать вам о большом проекте по подготовке и локализации обучающих материалов для открытия розничных магазинов Спортмастер в Узбекистане.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js