Главная

Рубрика «llm inference»

Внутри vLLM: Анатомия системы инференса LLM с высокой пропускной способностью

2025-10-18 в 19:53, admin, рубрики: llm, llm inference, vllm, инференс ллм

Привет! Этот пост — перевод очень хардовой статьи про внутренности vLLM и того, как устроен инференс LLM. Переводить было сложно из-за англицизмов и отсутствия устоявшегося перевода многих терминов, но это слишком классная статья, и она обязана быть на русском языке! А дальше — слово автору:

От paged attention, непрерывного батчинга, кэширования префиксов , specdec и т.д. — до мульти-GPU и мультинодового динамического сервинга LLM под нагрузкой.

Читать полностью »

LLM для кодинга и локальный тест открытых моделей на AMD

2025-03-09 в 12:39, admin, рубрики: coding, copilot, llm, llm coder, llm inference, qwen2.5-coder, sonnet3.7

LLM кодеры уже показывают отличные результаты на бенчмарках и в реальных задачах. Кажется, сейчас хорошее время, чтобы начать пробовать ими пользоваться.

В статье разберем открытые LLM для кодинга. Сравнимы ли они с подписочными моделями? Можно ли их использовать для работы? А есть ли вариант начать локально?

В части туториала: