Главная

Рубрика «Прокси-серверы»

Как мы заставили vLLM «лениться» под нагрузкой и спасли Time-to-First-Token

2026-04-24 в 4:19, admin, рубрики: llm, python, инфраструктура, оптимизация, Прокси-серверы

Введение: Почему обычный Rate Limiting не работает для LLM?

Деплой больших языковых моделей (LLM) — это всегда боль, когда дело доходит до пиковых нагрузок. В классических web-сервисах при высоких RPS мы просто включаем балансировщик, а если всё горит — жестко режем запросы HTTP 429 Too Many Requests.

Но в мире генеративного AI отбрасывать запросы клиентов очень дорого: пользователь уже подождал, пока загрузится чат, написал длинный промпт, нажал Enter и… получил ошибку. А масштабирование GPU-кластера занимает минуты, которых у нас нет.

В этой статье мы покажем, как подход “Динамической лени”Читать полностью »

Публикации RSS | Комментарии RSS

https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js

Информация

Комментарии

Рекомендуем

Рубрика «Прокси-серверы»

Как мы заставили vLLM «лениться» под нагрузкой и спасли Time-to-First-Token

Введение: Почему обычный Rate Limiting не работает для LLM?