Рубрика «голосовой ввод»

Предыстория

На Android у меня живёт Govorun Lite - офлайн-диктовка на русском. Нажал кнопку, сказал, текст вставился. Никаких облаков, никакой отправки голоса на серверы. Работает через GigaAM v2 от Сбера.

Проблема одна: на ПК такого нет. Встроенная Windows-диктовка - онлайн. Whisper — либо медленный, либо требует видеокарту. Сторонние сервисы - снова облако.

Я решил портировать Govorun на Windows, и для ускорения взял Claude как пару-программиста. Что из этого вышло - в этой статье.

Стек

Компонент

Библиотека

Лицензия

Читать полностью »

Всё началось с того, что пару месяцев назад я сломал левую руку. Печатать одной правой оказалось той ещё пыткой, поэтому я начал искать альтернативы. Ради интереса попробовал встроенную диктовку на Маке, которой отродясь не пользовался. И внезапно обнаружил, что современный голосовой ввод в macOS — это пушка. Он отлично справляется с моим быстрым темпом речи и сложными словами. Я начал диктовать вообще всё: от сообщений в Telegram до рабочих промптов.

А потом я попытался сделать то же самое на Android.

Читать полностью »

Автор: Дмитрий Сосунов совместно с Claude
Уровень: для тех кто не программист, но не боится терминала
Время: один вечер
Результат: иконка в строке меню Mac → нажал Запустить → говоришь в Claude


Я менеджер, финансист без технического бэкграунда. Мне кайфово диктовать а не печатать, так и не смог я освоить слепой метод, печатаю глядя на клаву. Хочу диктовать. Но!

ПРОБЛЕМА: В Claude пока нет русского языка для диктовки.

Читать полностью »

Мне нужен был голосовой ввод. Не встроенная в ОС диктовка, не облачный API — а простая и главное локальная штука: зажал клавишу, сказал, отпустил, текст появился в активном окне. 

Готовых решений, которые бы устроили, сходу не нашёл. Сделал свое.  Может, кому будет полезно.

Как устроено

Микрофон → Whisper (локально) → LLM-трансформация (опционально) → вставка в активное окно

Читать полностью »

Мне нужен был офлайновый голосовой ввод для Windows — push‑to‑talk, без облака, с хорошим распознаванием русского. Звучит просто? Я тоже так думал. За два месяца перепробовал три ASR‑движка, кучу оптимизаций, и большая часть идей оказалась тупиком. Но в итоге — 3.3% WER на CPU, в 2.4 раза лучше Whisper large‑v3-turbo на RTX 4090.

Зачем это вообще понадобилось

Голосовой ввод на русском в 2026 году — грустная история. Встроенный в Windows работает через облако и плохо понимает русскую речь. Google Cloud STT — платный и требует интернет.

Читать полностью »

Вступление

Привет! Опять я со своим "а что если попросить artificial intelligence...". В этот раз попросил сразу две — одна нарисовала интерфейс, вторая написала код. Получилось настолько рабочее, что сам теперь пользуюсь. Исходники на GitHub, демо живое — все ссылки в конце, но сначала расскажу, как это было.

20 мая прошла 18-ая конференция Google I/O 2025, на которой показали довольно много всего интересного. И меня, как дизайнера, очень сильно заинтересовал новый сервис stitch.withgoogle.comЧитать полностью »

Всем привет! Меня зовут Дядиченко Григорий, и я основатель и CTO студии Foxsys. Недавно мне пришла в голову идея интересная концепция AR очков, которые могут быть нужны пользователю. Многие недооценивают некоторые аспекты с точки зрения удобства использования и пользовательского опыта. Если вам интересна данная тема, добро пожаловать под кат.

Концепция очков дополненной реальности. Моя идеальная AR гарнитура, которая возможна - 1
Читать полностью »

10 приёмов, позволяющих ощутить себя специалистом, работая с Google Drive - 1

Думаете, вы хорошо знаете набор мер для повышения производительности онлайн-работы в инструментах Google? Независимо от того, используете вы сервис Гугл-Диск пять минут или пять лет, в нём всегда есть, чему научиться, и поэтому мы представляем ниже 10 полезных советов и приёмов для повышения вашего мастерства при работе с этим сервисом.
Читать полностью »

Google добавил в Docs голосовой ввод и другие усовершенствования - 1

К началу учебного года Google анонсировал несколько обновлений для своего сервиса Docs. Разработчики добавили интеграцию поиска в интернете с редактированием документов, распознавание речи для диктовки текстов, улучшили отображение обновлений документа в режиме совместной работы, и сделали ещё несколько улучшений сервиса.

Голосовой ввод

Когда-то голосовой ввод текста был весьма ожидаемым свойством, которое вот-вот должно было появиться у компьютеров. Сейчас во всех операционках для смартфонов присутствуют помощники, распознающие голосовые команды, и с одной стороны, ввод текста с голоса перестал быть удивительной инновацией. С другой стороны, в реальности распознавание произвольной речи остаётся достаточно сложной задачей.

Если вы захотите воспользоваться голосовым вводом, вам необходимо, во-первых — использовать браузер Chrome, во-вторых – выбрать язык документа в меню File, и в-третьих – в меню Tools выбрать голосовой ввод. После клика по появившейся сбоку кнопке можно диктовать текст в микрофон, и распознанная речь будет появляться в виде текста в документе.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js