Рубрика «vgpu»

Привет! На связи снова Данила Гудынин, DevOps-инженер направления Evolution ML Inference в Cloud.ru.

В прошлой статье про снижение стоимости инференса мы пробежались по теории того, что и на каких уровнях стека можно подкрутить, чтобы повысить утилизацию своих GPU. Там вы могли определиться, какой подход в принципе подходит для ваших задач.

Читать полностью »

Об авторе

Меня зовут Андросов Михаил — DevOps/MLOps-инженер. Последние два года сопровождаю ML-кластера Kubernetes с интенсивной нагрузкой на GPU.

Аппаратные характеристики

Наш типовой bare-metal-узел — сервер с 10 × NVIDIA RTX 4090 (24 GB). GPU enterprise уровня тоже есть, но мы предпочитаем использовать пользовательские GPU: такие карты проще приобрести и эксплуатировать.

Основные проблемы

В процессе запуска бесчисленных ML экспериментов, встали следующие проблемы:

  1. Недоиспользование памяти. Большинство ML задач занимает лишь часть памяти RTX 4090, из-за чего GPU простаивает.

  2. Взаимоблокировки.Читать полностью »

Материалы из нашего блога об IaaS и Tg-канала про IT-инфраструктуру.

IaaS-дайджест: высокая производительность, хранение данных и новые технологии для ЦОД - 1
/ фото NASA, Rawpixel CC BY

Аналитические заметки

  • Как прошла конференция VMware EMPOWER 2019 IaaS-дайджест: высокая производительность, хранение данных и новые технологии для ЦОД - 2 Это — саммари о поездке специалистов «ИТ-ГРАД» в Лиссабон, где VMware проводили свою ежегодную тематическую конференцию. Прямую трансляцию с места событий мы вели у себя в Telegram-канале, а на Хабре публиковали ежедневные отчеты с заметками о представленных новинках и наиболее обсуждаемых технологиях: день первый (интеллектуальные решения, информационная безопасность, конец эры NSX-V), день второй (сетевые решения, IoT, МО), день третий (виртуализация СХД и восстановлении данных). Помимо этого мы подвели итоги и в хабрапосте.

Читать полностью »

В феврале в Стэнфорде прошла конференция, посвящённая высокопроизводительным вычислениям (HPC). Представители VMware рассказали, что при работе с GPU система на базе модифицированного гипервизора ESXi по скорости не уступает bare metal решениям.

Рассказываем о технологиях, которые позволили этого добиться.

Ситуация: виртуальные GPU не уступают по производительности железным решениям - 1Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js