Рубрика «Whisper»

Каждый день в российском бизнесе происходят миллионы телефонных звонков. Колл-центры, клиники, юридические конторы, отделы продаж — везде, где есть телефон, есть поток неструктурированных данных, который никто не обрабатывает. Менеджер повесил трубку, записал в CRM «клиент интересовался» — и 80% информации из разговора потерялось.

Я потратил полгода на то, чтобы построить пайплайн, который берёт аудиозапись телефонного звонка и выдаёт структурированный JSON: кто звонил, чего хотел, какие суммы называл, что договорились делать дальше. В процессе набил достаточно шишек, чтобы написать эту статью.

Читать полностью »

Последние пару месяцев у меня случилось много разных созвонов на английском. В целом, я обычно нормально все понимаю, но боюсь упустить что-то важное. Даже субтитры помогают лишь частично. То есть нужен костыль (или аугментация).

Поискал, что есть из того, что может пригодиться. Нашел статью на Хабре про расшифровку собеседований. Идея простая: записал аудио, прогнал через Whisper, скопировал текст в ChatGPT, получил анализ. В целом ок, но pipeline выглядел так:

  1. Запустить запись в OBS / аудасити / что-то ещё

  2. Дождаться конца звонка, сохранить файл

  3. Запустить скрипт с Whisper

  4. Читать полностью »

Привет! Меня зовут Vlad, я начинающий Python-разработчик и энтузиаст изучения языков.

Недавно я столкнулся с классической проблемой полиглота-самоучки: учебники дают теорию, аудиокурсы — пассивное восприятие, но нет главного — обратной связи по произношению. Репетиторы дороги, а разговорные клубы требуют уровня, которого у меня еще не было.

Я решил закрыть эту боль кодом. Моя цель была амбициозной: создать Telegram-бота, который:

  1. Слушает голосовые сообщения и распознает речь без дорогих облачных API.

  2. Оценивает точность произношения в процентах, сравнивая с эталоном.

  3. Читать полностью »

Мне нужен был голосовой ввод. Не встроенная в ОС диктовка, не облачный API — а простая и главное локальная штука: зажал клавишу, сказал, отпустил, текст появился в активном окне. 

Готовых решений, которые бы устроили, сходу не нашёл. Сделал свое.  Может, кому будет полезно.

Как устроено

Микрофон → Whisper (локально) → LLM-трансформация (опционально) → вставка в активное окно

Читать полностью »

Три недели назад мне позвонила мама. Не «привет, как дела», а сразу: «Сынок, тут из банка звонили, говорят, с моей карты пытаются снять деньги».

У меня похолодело внутри. Не потому что поверил. А потому что понял: они дозвонились. Опять.

Я работаю с ML-системами шестой год. Строю пайплайны, оптимизирую инференс, вот это всё. И в тот момент, вешая трубку после того, как полчаса объяснял маме, что «сотрудник Сбербанка» не будет просить коды из SMS, я понял — хватит.

Читать полностью »

Мне нужен был офлайновый голосовой ввод для Windows — push‑to‑talk, без облака, с хорошим распознаванием русского. Звучит просто? Я тоже так думал. За два месяца перепробовал три ASR‑движка, кучу оптимизаций, и большая часть идей оказалась тупиком. Но в итоге — 3.3% WER на CPU, в 2.4 раза лучше Whisper large‑v3-turbo на RTX 4090.

Зачем это вообще понадобилось

Голосовой ввод на русском в 2026 году — грустная история. Встроенный в Windows работает через облако и плохо понимает русскую речь. Google Cloud STT — платный и требует интернет.

Читать полностью »

Q-scribe (Quick Transcription) появился как быстрый, независимый и легковесный конвейер «приемлемого качества» для расшифровки видеозаписей встреч. Полученный текст можно использовать для создания протоколов, кратких сводок или дальнейшей обработки.

Условия, с которыми мы столкнулись, были простыми и вполне реальными:

  1. Мы — небольшая удаленная команда из двух человек.

  2. Мы не хотим платить за облачные подписки для транскрибации.

  3. Мы не хотим сливать аудио встреч на внешние сервера.

  4. У одного из нас (у меня) имеется ноутбук с NVIDIA GeForce RTX 4080.

  5. Читать полностью »

Как я решил проблему длинных совещаний вайбкодингом и китайской видеокартой - 1

Еще одна статья про whisper + pyannote для транскрибации совещаний? Да, но нет.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js