Рубрика «TTS»

Оповещения о БПЛА через Яндекс Станцию

2026-07-12 в 9:22, admin, рубрики: home assistant, TTS, webhook, YandexStation, алиса, умный дом, яндекс.станция

История про то, как «просто пусть колонка читает вслух сообщения из канала» превратилась в квест по внутренностям умного дома Яндекса, с двумя тупиками, неофициальной интеграцией и в итоге рабочим пайплайном на webhook.

Задача

Дано: Telegram-канал, куда падают оповещения (у меня это был канал с оповещениями об угрозе атаки БПЛА по региону, но механизм универсальный — точно так же можно озвучивать алерты мониторинга, сообщения от умного дома или что угодно ещё). Есть Яндекс.Станция с Алисой. Хочется: когда в канал приходит сообщение с ключевым словом, колонка сама, без обращения к нейЧитать полностью »

Что перестаёт работать в тестировании, когда приходит LLM

2026-06-19 в 9:15, admin, рубрики: ai-агенты, Evals, llm, llm testing, qa, qa lead, STT, TTS

**Слева — привычный зелёный тест. Справа — то, что с ним делает LLM**

Читать полностью »

Голосовой агент — это не чатбот с телефоном: 40 часов экономии и $100, сожженные на ботах

2026-05-04 в 10:45, admin, рубрики: ElevenLabs, latency, llm, OpenClaw, Retell, STT, TTS, Twilio, voice agents, голосовые агенты

Я однажды примерно за сутки сжег около $100 на голосовом агенте.

Не на большом запуске. Не на огромной базе. Не на хитрой рекламной кампании. Просто на небольшом пуле холодных контактов, где агент периодически попадал на voicemail, IVR, секретарей и других ботов.

В какой-то момент два не очень умных голосовых процесса могли довольно долго вежливо говорить друг другу что-то в духе:

Здравствуйте.

Здравствуйте, чем могу помочь?

Я звоню, чтобы…

Здравствуйте, чем могу помочь?

Конечно, подскажите, пожалуйста…

Читать полностью »

Как я добавил llama.cpp бэкенд в CosyVoice3 и ускорил инференс в 2.6x

2026-04-25 в 17:25, admin, рубрики: CosyVoice, gguf, llama-cpp-python, quantization, speech synthesis, TTS

CosyVoice3 — одна из лучших open source TTS моделей прямо сейчас, особенно для русского языка. Но у неё есть проблема: LLM-часть на PyTorch работает медленно на слабых GPU вроде T4. RTF (real-time factor) около 1.17 — это значит синтез одной секунды аудио занимает больше секунды реального времени.

Я решил это исправить, добавив поддержку llama.cpp через llama-cpp-python. Результат: RTF упал до ~0.45, то есть ускорение примерно в 2.6x.

В этой статье расскажу как это работает, почему это нетривиально, и как попробовать самому.

Почему CosyVoice LLM — не обычная LLM

Читать полностью »

Заставляем голосовых ассистентов Марусю и Салют материться без принуждения и спецсредств

2026-04-06 в 6:16, admin, рубрики: AI, llm, nlp, prompt injection, TTS, user input, voice assistant, безопасность, голосовые ассистенты, уязвимости

Всем привет! Не такую первую публикацию я планировал сделать на Хабр: есть пара более серьёзных и интересных тем, которыми я планирую поделиться, но перфекционизм пока не даёт их добить.

А тут получилась спонтанная и короткая история из разряда «поигрался - ~~проиграл~~ задумался», которая неожиданно упёрлась в этику и безопасность.

Читать полностью »

Я протестировал 30+ голосовых AI-движков и собрал переводчик быстрее Google Meet. Бенчмарки, цены, грабли

2026-03-28 в 4:28, admin, рубрики: AI, Deepgram, ElevenLabs, Kokoro, llm, STT, TTS, Voice AI, голосовой бот

30+ движков за две недели, реальные замеры на Apple M4, и почему ElevenLabs за $5.57/час - это приговор для бизнеса

Сижу на очередном рабочем созвоне. Обсуждаем архитектуру нового сервиса. Технически я всё понимаю - документацию на английском читаю без словаря, код ревьюю, в слаке переписываюсь нормально. А вот когда надо открыть рот и сказать что-то сложнее "I agree" - начинается цирк. Пауза. Подбираю слова. Коллега уже ответил за меня.

Знакомо?

Читать полностью »

Мошенники позвонили моему ИИ-деду. Он продержал их 31 минуту и записал всё

2026-02-25 в 8:05, admin, рубрики: llama, timeweb_статьи, TTS, Whisper, голосовой агент, голосовой бот, мошенники, скамбейт, телефонное мошенничество

Три недели назад мне позвонила мама. Не «привет, как дела», а сразу: «Сынок, тут из банка звонили, говорят, с моей карты пытаются снять деньги».

У меня похолодело внутри. Не потому что поверил. А потому что понял: они дозвонились. Опять.

Я работаю с ML-системами шестой год. Строю пайплайны, оптимизирую инференс, вот это всё. И в тот момент, вешая трубку после того, как полчаса объяснял маме, что «сотрудник Сбербанка» не будет просить коды из SMS, я понял — хватит.

Читать полностью »

Клонирование голоса по 3-секундному образцу локально: обзор Qwen3-TTS, примеры на русском и портативная версия

2026-01-25 в 7:33, admin, рубрики: alibaba, open source, qwen, text-to-speech, TTS, клонирование голоса, машинное обучение, нейросети, портативная версия, синтез речи

Всем привет! Команда Qwen от Alibaba выложила в открытый доступ Qwen3-TTS — нейросетевую модель для синтеза речи с клонированием голоса. Сегодня хочу рассказать об этой технологии подробнее и поделиться портативной версией.

Читать полностью »

Голос и микроконтроллер ESP32

2026-01-01 в 13:01, admin, рубрики: ruvds_статьи, STT, TTS, генерация речи, распознавание речи

Картинка: freepik.com - vecstock — *Картинка:* *freepik.com - vecstock*

При построении разнообразных автоматизированных систем часто возникает потребность, чтобы эта система предоставляла какую-то обратную связь. Читать полностью »

Наш синтез для 20 языков теперь работает локально под Windows как экранная читалка (SAPI5) и в Балаболке

2025-12-30 в 15:17, admin, рубрики: sapi, silero, text-to-speech, TTS, балаболка, нейросети, озвучка, русский язык, синтез речи, языки россии

Всё шло к этому. Мы решили Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «TTS»

Оповещения о БПЛА через Яндекс Станцию

Задача

Что перестаёт работать в тестировании, когда приходит LLM

Голосовой агент — это не чатбот с телефоном: 40 часов экономии и $100, сожженные на ботах

Как я добавил llama.cpp бэкенд в CosyVoice3 и ускорил инференс в 2.6x

Почему CosyVoice LLM — не обычная LLM

Заставляем голосовых ассистентов Марусю и Салют материться без принуждения и спецсредств

Я протестировал 30+ голосовых AI-движков и собрал переводчик быстрее Google Meet. Бенчмарки, цены, грабли

Мошенники позвонили моему ИИ-деду. Он продержал их 31 минуту и записал всё

Клонирование голоса по 3-секундному образцу локально: обзор Qwen3-TTS, примеры на русском и портативная версия

Голос и микроконтроллер ESP32

Наш синтез для 20 языков теперь работает локально под Windows как экранная читалка (SAPI5) и в Балаболке