Главная

Рубрика «пайплайн»

Как загрузить GPU на максимум. Разбираем узкие места в инфраструктуре для ИИ

2025-10-30 в 6:32, admin, рубрики: cpu, gpu, Видеокарты, диск, инфраструктура, оперативная память, пайплайн, производительность, Процессоры, сети

Представим, что вы запустили в облаке или на своем оборудованиии обучение модели. Выбрали конфигурацию с A100, H100 или L40S, может, даже с RTX 4090. Запускаете обучение модели, ждете, что процесс пойдет как по маслу. Но вместо э��ого в инструментах мониторинга видите, что GPU загружен на 40–60%, а то и меньше.

Причина не в «кривом коде» и не в том, что GPU «не тянут». Проблема глубже: производительность AI-кластера определяется не пиковыми терафлопсами, а самым слабым звеном в цепочке ввода-вывода. Даже самый быстрый GPU беспомощен, если данные не успевают до него «доехать». Он просто ждет.

Читать полностью »

Data Version Control (DVC): версионирование данных и воспроизводимость экспериментов

2019-07-30 в 13:53, admin, рубрики: open source, python, Raiffeisenbank, raiffeisenIT, Блог компании Райффайзенбанк, версионирование, машинное обучение, пайплайн

Эта статья — своеобразный мастер-класс «DVC для автоматизации ML экспериментов и версионирования данных», который прошел 18 июня на митапе ML REPA (Machine Learning REPA:
Reproducibility, Experiments and Pipelines Automation) на площадке нашего банка.

Тут я расскажу об особенностях внутренней работы DVC и способах применения его в проектах.

Примеры кода, используемые в статье доступны здесь. Код тестировался на MacOS и Linux (Ubuntu).

Data Version Control (DVC): версионирование данных и воспроизводимость экспериментов - 1

Читать полностью »

Как машинное обучение в YouDo катится в продакшен. Лекция в Яндексе

2018-11-04 в 8:00, admin, рубрики: canary, continious delivery, continious integration, event stream processing, feature toggle, gitflow, nomad, youdo, Блог компании Яндекс, машинное обучение, мердж, Микросервисная архитектура, оркестрация, пайплайн, продакшен, Промышленное программирование

В крупных сервисах решить какую-нибудь задачу с помощью машинного обучения — означает выполнить только часть работы. Встраивать ML-модели не так уж просто, а налаживать вокруг них CI/CD-процессы еще сложнее. На конференции Яндекса «Data & Science: программа по заявкам» руководитель направления data science в компании YouDo Адам Елдаров рассказал о том, как управлять жизненным циклом моделей, настраивать процессы дообучения и переобучения, разрабатывать масштабируемые микросервисы, и о многом другом.

— Начнем с вводных. Есть data scientist, он в Jupyter Notebook пишет какой-то код, делает фиче-инжениринг, кросс-валидацию, тренирует модельки. Скор растет.Читать полностью »

Публикации RSS | Комментарии RSS

https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js

Информация

Комментарии

Рекомендуем

Рубрика «пайплайн»

Как загрузить GPU на максимум. Разбираем узкие места в инфраструктуре для ИИ

Data Version Control (DVC): версионирование данных и воспроизводимость экспериментов

Как машинное обучение в YouDo катится в продакшен. Лекция в Яндексе