Об авторе
Меня зовут Андросов Михаил — DevOps/MLOps-инженер. Последние два года сопровождаю ML-кластера Kubernetes с интенсивной нагрузкой на GPU.
Аппаратные характеристики
Наш типовой bare-metal-узел — сервер с 10 × NVIDIA RTX 4090 (24 GB). GPU enterprise уровня тоже есть, но мы предпочитаем использовать пользовательские GPU: такие карты проще приобрести и эксплуатировать.
Основные проблемы
В процессе запуска бесчисленных ML экспериментов, встали следующие проблемы:
-
Недоиспользование памяти. Большинство ML задач занимает лишь часть памяти RTX 4090, из-за чего GPU простаивает.
-
Взаимоблокировки.Читать полностью »

