Рубрика «Whisper»

Три недели назад мне позвонила мама. Не «привет, как дела», а сразу: «Сынок, тут из банка звонили, говорят, с моей карты пытаются снять деньги».

У меня похолодело внутри. Не потому что поверил. А потому что понял: они дозвонились. Опять.

Я работаю с ML-системами шестой год. Строю пайплайны, оптимизирую инференс, вот это всё. И в тот момент, вешая трубку после того, как полчаса объяснял маме, что «сотрудник Сбербанка» не будет просить коды из SMS, я понял — хватит.

Читать полностью »

Мне нужен был офлайновый голосовой ввод для Windows — push‑to‑talk, без облака, с хорошим распознаванием русского. Звучит просто? Я тоже так думал. За два месяца перепробовал три ASR‑движка, кучу оптимизаций, и большая часть идей оказалась тупиком. Но в итоге — 3.3% WER на CPU, в 2.4 раза лучше Whisper large‑v3-turbo на RTX 4090.

Зачем это вообще понадобилось

Голосовой ввод на русском в 2026 году — грустная история. Встроенный в Windows работает через облако и плохо понимает русскую речь. Google Cloud STT — платный и требует интернет.

Читать полностью »

Q-scribe (Quick Transcription) появился как быстрый, независимый и легковесный конвейер «приемлемого качества» для расшифровки видеозаписей встреч. Полученный текст можно использовать для создания протоколов, кратких сводок или дальнейшей обработки.

Условия, с которыми мы столкнулись, были простыми и вполне реальными:

  1. Мы — небольшая удаленная команда из двух человек.

  2. Мы не хотим платить за облачные подписки для транскрибации.

  3. Мы не хотим сливать аудио встреч на внешние сервера.

  4. У одного из нас (у меня) имеется ноутбук с NVIDIA GeForce RTX 4080.

  5. Читать полностью »

Как я решил проблему длинных совещаний вайбкодингом и китайской видеокартой - 1

Еще одна статья про whisper + pyannote для транскрибации совещаний? Да, но нет.

Читать полностью »

Один STT-сервис дал 60-70% точности на специфической лексике (топонимы, названия улиц, профессиональные термины). Два сервиса параллельно + взвешенное голосование + AI-fusion для спорных случаев дали 95%+ точности. Время обработки 5-8 секунд, стоимость $70-130/месяц при 1000 сообщений в день. В статье — полный разбор архитектуры, алгоритмы scoring, примеры кода и расчёт экономики.

Содержание

  1. Почему один STT оказалось недостаточно

  2. Эволюция решения: от 60% к 95%

  3. Архитектура Multi-API Ensemble

  4. Взвешенное голосование: математика выбора

  5. AI-fusion: когда голосования недостаточно

  6. Читать полностью »

Self-hosted AI-платформа: полный стек для локального ИИ на Docker

Введение

При внедрении ИИ-решений для бизнеса постоянно сталкивался с проблемой: компании хотят использовать LLM, но не могут отправлять конфиденциальные данные в публичные облачные сервисы. 152-ФЗ, NDA, корпоративные политики безопасности — причины разные, суть одна: нужна локальная инфраструктура.

Читать полностью »

И снова привет!

В современной разработке все большую роль играют инструменты, которые позволяют эффективно комбинировать человеческий креатив с возможностями искусственного интеллекта. В этой статье я поделюсь информацией об ещё одном способе организации работы над проектами и приведу пример из своей практики.

В статье речь пойдёт об использовании редактора кода VS Code и его расширений для работы над текстом и кодом в проектах.

Переход в VS Code

Когда я только начинал работать над своими проектами, я перепробовал массу инструментов — от простых текстовых редакторов до полноценных IDEЧитать полностью »

Ловим «взрослые» сцены на видео: как ИИ помогает редакторам - 1

Поводом для написания этой заметки стало обсуждение на недавнем отраслевом мероприятии задач Читать полностью »

Нельзя просто так взять и транскрибировать аудио-файл

Как всё началось

В 23м году я поступил на онлайн-магистратуру ВШЭ "Управление организациями и проектами". Онлайн-магистратура - это лекции онлайн и записи для тех, кто не может присутствовать. Мой опыт говорил о том, что не только многие вещи требуют повторного изучения, но и видео - не мой любимый формат потребления информации.

Поэтому было принято решение транскрибировать записи лекций и делать очищенный текст с помощью LLM.

Пайплайн выглядел примерно так:

  1. транскрибировать текст лекции

  2. очистить от технических моментов

    Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js