Главная

Рубрика «инференс ллм»

LLM модель qwen3-coder-next быстрый тест на локальном сервере

2026-02-04 в 18:29, admin, рубрики: llm код, запуск llm, инференс, инференс ллм, инференс моделей, как запустить llm, настрока linux для llm, обучение нейросети, сервер для LLM

Сегодня зашел на сайт ollama, а там представили новую LLM модель qwen3-coder-next. Но при попытке ее установить вышло предупреждение что моя текущая версия 0.15.4 не будет работать с ней, нужно установить 0.15.5 которая еще только в бета тестировании. А стандартная установка ставила только 0.15.4, сначала я плюнул на это.

Но немного разобравшись, оказалось что установить бета версию не так и сложно, стандартная установка для линукс выглядит так

curl -fsSL https://ollama.com/install.sh | sh

а установка бета варсии (сейчас она 0.15.5-rs2) выглядит так

Читать полностью »

Внутри vLLM: Анатомия системы инференса LLM с высокой пропускной способностью

2025-10-18 в 19:53, admin, рубрики: llm, llm inference, vllm, инференс ллм

Привет! Этот пост — перевод очень хардовой статьи про внутренности vLLM и того, как устроен инференс LLM. Переводить было сложно из-за англицизмов и отсутствия устоявшегося перевода многих терминов, но это слишком классная статья, и она обязана быть на русском языке! А дальше — слово автору:

От paged attention, непрерывного батчинга, кэширования префиксов , specdec и т.д. — до мульти-GPU и мультинодового динамического сервинга LLM под нагрузкой.

Читать полностью »

Публикации RSS | Комментарии RSS

https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js

Информация

Комментарии

Рекомендуем

Рубрика «инференс ллм»

LLM модель qwen3-coder-next быстрый тест на локальном сервере

Внутри vLLM: Анатомия системы инференса LLM с высокой пропускной способностью