Главная

Рубрика «инференс моделей»

Инференс нейросетевых моделей для табличных данных с помощью ONNX Runtime на C++

2026-02-01 в 7:36, admin, рубрики: c++, DL, ONNX, onnxruntime, ORT, TabularDL, инференс моделей

Развертывание нейросетевых моделей в production-среде — критически важный этап ML-пайплайна. Когда речь заходит о встраивании в C++ приложения (будь то высоконагруженные сервисы, desktop-софт или встраиваемые системы), выбор инструментария сужается. Прямое использование фреймворков вроде PyTorch или TensorFlow часто избыточно и приводит к зависимостям, сложностям сборки и излишнему потреблению памяти.

ONNX Runtime (ORT)Читать полностью »

Как я экономлю на инференсе LLM-модели в облаке и не теряю в качестве

2025-10-23 в 15:30, admin, рубрики: gpu, kv-cache, llm, vllm, VRAM, большие языковые модели, веса, инференс моделей, квантовые модели

Если вы читаете этот текст, скорее всего, вы уже пробовали запустить LLM самостоятельно и, вполне вероятно, столкнулись с одной из типичных проблем:

«Заказал GPU, загрузил модель, а она не влезла, хотя по расчетам памяти должно было хватить».

«Платим за A100, а реально используем лишь 30% ее мощности».

Привет, на связи Павел, ML-инженер в Cloud.ru. Я прошел через эти проблемы сам, поэтому не понаслышке знаю, как это может раздражать.

Читать полностью »

Публикации RSS | Комментарии RSS

https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js

Информация

Комментарии

Рекомендуем

Рубрика «инференс моделей»

Инференс нейросетевых моделей для табличных данных с помощью ONNX Runtime на C++

Как я экономлю на инференсе LLM-модели в облаке и не теряю в качестве