У меня на столе стоит небольшая золотистая коробочка размером чуть больше Mac mini. Внутри — приватный AI-сервер: чат с локальной 26B-моделью, поисковая индексация моих документов с GPU-парсингом, конструктор агентов в Dify, RAGFlow для тяжёлого парсинга PDF, мониторинг, бэкапы, опциональный кластер из двух машин по QSFP 200G. Тридцать контейнеров, пять минут на установку через sudo bash install.sh, ноль обращений к внешним API.
Рубрика «vllm»
Как я собрал на DGX Spark приватный AI-сервер, и теперь рассказываю, что туда вошло
2026-05-03 в 9:15, admin, рубрики: arm64, DGX Spark, Dify, gb10, llm, rag, ragflow, vllmПрактическое руководство по Qwen: установка, настройка vLLM и работа через API
2026-04-22 в 12:00, admin, рубрики: AI, inference, llm, ml, OpenAI, openai api, qwen, selectel, self-hosted, vllmKV-Cache в LLM: разбираем инференс через 9 ключевых вопросов
2026-04-10 в 11:21, admin, рубрики: attention, gpu, kv-cache, llm, prefix caching, prompt caching, Transformers, vllm, машинное обучение, машинное обучение. нейросетиНе так давно лимиты на использование Claude Code резко уменьшились, и люди стали лучше считать свои токены. Я не стал исключением, поэтому первым делом собрал информацию по использованию токенов в своих сессиях и посмотрел, что и сколько бы стоило, если бы отправлял это через API.
Собственная облачная LLM на 16 ГБ VRAM — часть 1: базовая сборка, tools и MCP
2026-03-06 в 8:00, admin, рубрики: api-сервис, LangChain, langgraph, localai, MCP, python, qwen3, selectel, vllm, ии-агенты
Привет! На фоне ажиотажа вокруг нейросетей все чаще встает вполне приземленный вопрос — сколько стоит содержать собственную LLM.
Как я экономлю на инференсе LLM-модели в облаке и не теряю в качестве
2025-10-23 в 15:30, admin, рубрики: gpu, kv-cache, llm, vllm, VRAM, большие языковые модели, веса, инференс моделей, квантовые моделиЕсли вы читаете этот текст, скорее всего, вы уже пробовали запустить LLM самостоятельно и, вполне вероятно, столкнулись с одной из типичных проблем:
«Заказал GPU, загрузил модель, а она не влезла, хотя по расчетам памяти должно было хватить».
«Платим за A100, а реально используем лишь 30% ее мощности».
Привет, на связи Павел, ML-инженер в Cloud.ru. Я прошел через эти проблемы сам, поэтому не понаслышке знаю, как это может раздражать.
Внутри vLLM: Анатомия системы инференса LLM с высокой пропускной способностью
2025-10-18 в 19:53, admin, рубрики: llm, llm inference, vllm, инференс ллмПривет! Этот пост — перевод очень хардовой статьи про внутренности vLLM и того, как устроен инференс LLM. Переводить было сложно из-за англицизмов и отсутствия устоявшегося перевода многих терминов, но это слишком классная статья, и она обязана быть на русском языке! А дальше — слово автору:
От paged attention, непрерывного батчинга, кэширования префиксов , specdec и т.д. — до мульти-GPU и мультинодового динамического сервинга LLM под нагрузкой.
GPT-OSS-20B – 120B: Сухие цифры после реальных тестов
2025-08-20 в 9:16, admin, рубрики: GPT-OSS-120B, GPT-OSS-20B, H100 PCIe, llm, Ollama, RTX 4090 vs RTX 5090, TPS токены в секунду, vllm, VRAM использование, локальная LLMOpenAI выпустила GPT-OSS модели (https://huggingface.co/openai/gpt-oss-20b и https://huggingface.co/openai/gpt-oss-120b) , и сообщество немедленно начало экспериментировать. Но реальные бенчмарки производительности найти сложно. В этой статье представлены результаты нашего практического тестирования на арендованном железе через RunPod с использованием Ollama.
Ремарка: Тесты проводились на Ollama для быстрого деплоя. Если будете использовать vLLM, то производительность будет примерно +30%, но он слабо адаптирован под консьюмерские GPU, за исключением RTX 5090.
Что тестировалось:Читать полностью »
Эффективный инференс множества LoRA адаптеров
2025-06-27 в 8:19, admin, рубрики: async inference, benchmark, inference, lora, multilora, offline inference, PEFT, tensorrt, TensorRT-LLM, vllmLoRA — популярный метод дообучения больших моделей на небольших датасетах, однако на этапе инференса низкоранговые адаптеры работают неэффективно, а их объединение с весами требует хранения отдельной полной копии модели для каждого адаптера.
MultiLoRA решает эту проблему, позволяя одновременно выполнять инференс с несколькими адаптерами на основе одной базовой модели.
В статье мы сравним производительность MultiLoRA-инференса в двух популярных фреймворках — vLLM и TensorRT-LLMЧитать полностью »

