Главная

Рубрика «quantization»

Как я добавил llama.cpp бэкенд в CosyVoice3 и ускорил инференс в 2.6x

2026-04-25 в 17:25, admin, рубрики: CosyVoice, gguf, llama-cpp-python, quantization, speech synthesis, TTS

CosyVoice3 — одна из лучших open source TTS моделей прямо сейчас, особенно для русского языка. Но у неё есть проблема: LLM-часть на PyTorch работает медленно на слабых GPU вроде T4. RTF (real-time factor) около 1.17 — это значит синтез одной секунды аудио занимает больше секунды реального времени.

Я решил это исправить, добавив поддержку llama.cpp через llama-cpp-python. Результат: RTF упал до ~0.45, то есть ускорение примерно в 2.6x.

В этой статье расскажу как это работает, почему это нетривиально, и как попробовать самому.

Почему CosyVoice LLM — не обычная LLM

Читать полностью »

Сколько VRAM нужно для нейросетей?

2025-12-21 в 16:16, admin, рубрики: ComfyUI, memory bandwidth, neural networks, quantization, VRAM, Видеокарты, генеративные модели, нейросеть для генерации изображений, нейросеть локально

Этот пост будет полезен людям, кто хочет разобраться в локальных моделях, особенно использующим их, как инструмент в создании контента, арта и дизайна (контекст нейросетей - image и video). Так же поговорим о выборе видеокарты и параметрах влияющих на генеративные workflow.

VRAM requirements

Для начала - график с оптимальными и минимальными значениями VRAM для image и video моделей.

Читать полностью »

Всем про LLM. Как рассказать про трансформеры одинаково хорошо и индустриалам, и исследователям

2024-10-03 в 8:44, admin, рубрики: computational linguistics, distillation, image processing, llm, quantization, tabular data, time series, преподавание, трансформеры

Привет. Меня зовут Вика, я работаю в AIRI, преподаю в Школе Анализа Данных и Сколтехе и вместе со своими коллегами занимаюсь обработкой естественного языка, изображений и видео, а также иными задачами, где могли бы пригодиться трансформерные модели. Трансформерные архитектуры — очень мощное орудие, которые может быть применено почти во всех сферах DL, и интереснейший концепт, в котором много потенциала для исследования. А, главное, их очень легко применить к технологиям, которые способны изменить нашу жизнь здесь и сейчас.

Читать полностью »

Публикации RSS | Комментарии RSS

https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js

Информация

Комментарии

Рекомендуем

Рубрика «quantization»

Как я добавил llama.cpp бэкенд в CosyVoice3 и ускорил инференс в 2.6x

Почему CosyVoice LLM — не обычная LLM

Сколько VRAM нужно для нейросетей?

VRAM requirements

Всем про LLM. Как рассказать про трансформеры одинаково хорошо и индустриалам, и исследователям