Рубрика «CosyVoice»

CosyVoice3 — одна из лучших open source TTS моделей прямо сейчас, особенно для русского языка. Но у неё есть проблема: LLM-часть на PyTorch работает медленно на слабых GPU вроде T4. RTF (real-time factor) около 1.17 — это значит синтез одной секунды аудио занимает больше секунды реального времени.

Я решил это исправить, добавив поддержку llama.cpp через llama-cpp-python. Результат: RTF упал до ~0.45, то есть ускорение примерно в 2.6x.

В этой статье расскажу как это работает, почему это нетривиально, и как попробовать самому.


Почему CosyVoice LLM — не обычная LLM

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js