Главная

Рубрика «vllm-production-stack»

Снижаем стоимость инференса. Часть 2. IBM KServe ModelMesh, vLLM Production Stack и что внутри у нашего решения

2025-10-03 в 14:00, admin, рубрики: modelmesh, vgpu, vllm-production-stack

Привет! На связи снова Данила Гудынин, DevOps-инженер направления Evolution ML Inference в Cloud.ru.

В прошлой статье про снижение стоимости инференса мы пробежались по теории того, что и на каких уровнях стека можно подкрутить, чтобы повысить утилизацию своих GPU. Там вы могли определиться, какой подход в принципе подходит для ваших задач.

Читать полностью »

Публикации RSS | Комментарии RSS

https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js

Информация

Комментарии

Рекомендуем

Рубрика «vllm-production-stack»

Снижаем стоимость инференса. Часть 2. IBM KServe ModelMesh, vLLM Production Stack и что внутри у нашего решения