Рубрика «vllm»

Как я разогнал Qwen3.6-27B до 73 токен-с в llama.cpp: параметры, которые реально работают

2026-06-02 в 12:57, admin, рубрики: AI, javascript, llama.cpp, llm, vllm

Локальные LLM сейчас — это действительно мощный инструмент. Они уже вплотную приблизились к проприетарным моделям вроде Claude, особенно в задачах кодинга. Я сам активно использую локальные модели для разработки на TypeScript и Go.

На данный момент самая интересная модель для моего стека — Qwen3.6-27B. Но один только выбор хорошей модели ничего не гарантирует. Без правильных параметров вы не получите ни скорости, ни качества.

В этой статье я расскажу, с какими конкретно параметрами запускаю Qwen3.6-27B в llama.cppЧитать полностью »

Как я собрал на DGX Spark приватный AI-сервер, и теперь рассказываю, что туда вошло

2026-05-03 в 9:15, admin, рубрики: arm64, DGX Spark, Dify, gb10, llm, rag, ragflow, vllm

У меня на столе стоит небольшая золотистая коробочка размером чуть больше Mac mini. Внутри — приватный AI-сервер: чат с локальной 26B-моделью, поисковая индексация моих документов с GPU-парсингом, конструктор агентов в Dify, RAGFlow для тяжёлого парсинга PDF, мониторинг, бэкапы, опциональный кластер из двух машин по QSFP 200G. Тридцать контейнеров, пять минут на установку через sudo bash install.sh, ноль обращений к внешним API.

Читать полностью »

Практическое руководство по Qwen: установка, настройка vLLM и работа через API

2026-04-22 в 12:00, admin, рубрики: AI, inference, llm, ml, OpenAI, openai api, qwen, selectel, self-hosted, vllm

Читать полностью »

KV-Cache в LLM: разбираем инференс через 9 ключевых вопросов

2026-04-10 в 11:21, admin, рубрики: attention, gpu, kv-cache, llm, prefix caching, prompt caching, Transformers, vllm, машинное обучение, машинное обучение. нейросети

Не так давно лимиты на использование Claude Code резко уменьшились, и люди стали лучше считать свои токены. Я не стал исключением, поэтому первым делом собрал информацию по использованию токенов в своих сессиях и посмотрел, что и сколько бы стоило, если бы отправлял это через API.

Claude Code Session Usage — Читать полностью »

Собственная облачная LLM на 16 ГБ VRAM — часть 1: базовая сборка, tools и MCP

2026-03-06 в 8:00, admin, рубрики: api-сервис, LangChain, langgraph, localai, MCP, python, qwen3, selectel, vllm, ии-агенты

Привет! На фоне ажиотажа вокруг нейросетей все чаще встает вполне приземленный вопрос — сколько стоит содержать собственную LLM.

Читать полностью »

Как я экономлю на инференсе LLM-модели в облаке и не теряю в качестве

2025-10-23 в 15:30, admin, рубрики: gpu, kv-cache, llm, vllm, VRAM, большие языковые модели, веса, инференс моделей, квантовые модели

Если вы читаете этот текст, скорее всего, вы уже пробовали запустить LLM самостоятельно и, вполне вероятно, столкнулись с одной из типичных проблем:

«Заказал GPU, загрузил модель, а она не влезла, хотя по расчетам памяти должно было хватить».

«Платим за A100, а реально используем лишь 30% ее мощности».

Привет, на связи Павел, ML-инженер в Cloud.ru. Я прошел через эти проблемы сам, поэтому не понаслышке знаю, как это может раздражать.

Читать полностью »

Внутри vLLM: Анатомия системы инференса LLM с высокой пропускной способностью

2025-10-18 в 19:53, admin, рубрики: llm, llm inference, vllm, инференс ллм

Привет! Этот пост — перевод очень хардовой статьи про внутренности vLLM и того, как устроен инференс LLM. Переводить было сложно из-за англицизмов и отсутствия устоявшегося перевода многих терминов, но это слишком классная статья, и она обязана быть на русском языке! А дальше — слово автору:

От paged attention, непрерывного батчинга, кэширования префиксов , specdec и т.д. — до мульти-GPU и мультинодового динамического сервинга LLM под нагрузкой.

Читать полностью »

GPT-OSS-20B – 120B: Сухие цифры после реальных тестов

2025-08-20 в 9:16, admin, рубрики: GPT-OSS-120B, GPT-OSS-20B, H100 PCIe, llm, Ollama, RTX 4090 vs RTX 5090, TPS токены в секунду, vllm, VRAM использование, локальная LLM

OpenAI выпустила GPT-OSS модели (https://huggingface.co/openai/gpt-oss-20b и https://huggingface.co/openai/gpt-oss-120b) , и сообщество немедленно начало экспериментировать. Но реальные бенчмарки производительности найти сложно. В этой статье представлены результаты нашего практического тестирования на арендованном железе через RunPod с использованием Ollama.

Ремарка: Тесты проводились на Ollama для быстрого деплоя. Если будете использовать vLLM, то производительность будет примерно +30%, но он слабо адаптирован под консьюмерские GPU, за исключением RTX 5090.

Что тестировалось:Читать полностью »

Эффективный инференс множества LoRA адаптеров

2025-06-27 в 8:19, admin, рубрики: async inference, benchmark, inference, lora, multilora, offline inference, PEFT, tensorrt, TensorRT-LLM, vllm

LoRA — популярный метод дообучения больших моделей на небольших датасетах, однако на этапе инференса низкоранговые адаптеры работают неэффективно, а их объединение с весами требует хранения отдельной полной копии модели для каждого адаптера.

MultiLoRA решает эту проблему, позволяя одновременно выполнять инференс с несколькими адаптерами на основе одной базовой модели.

В статье мы сравним производительность MultiLoRA-инференса в двух популярных фреймворках — vLLM и TensorRT-LLMЧитать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «vllm»

Как я разогнал Qwen3.6-27B до 73 токен-с в llama.cpp: параметры, которые реально работают

Как я собрал на DGX Spark приватный AI-сервер, и теперь рассказываю, что туда вошло

Практическое руководство по Qwen: установка, настройка vLLM и работа через API

KV-Cache в LLM: разбираем инференс через 9 ключевых вопросов

Собственная облачная LLM на 16 ГБ VRAM — часть 1: базовая сборка, tools и MCP

Как я экономлю на инференсе LLM-модели в облаке и не теряю в качестве

Внутри vLLM: Анатомия системы инференса LLM с высокой пропускной способностью

GPT-OSS-20B – 120B: Сухие цифры после реальных тестов

Эффективный инференс множества LoRA адаптеров