В современных задачах анализа данных, от биоинформатики и нейробиологии до социальных и поведенческих исследований, обычно используется традиционный пайплайн обработки данных. Он почти всегда включает агрессивную предварительную фильтрацию признаков, снижение размерности (PCA и аналоги), а затем кластеризацию или обучение нейросетевых моделей.
Рубрика «пайплайн»
Иллюзия смысла: как фильтрация данных создает научные фантомы
2026-02-14 в 8:05, admin, рубрики: timeweb_статьи, искуственный интеллект, научное исследование, пайплайнBLIMP — Пайплайн синтеза и разметки изображений в Blender
2026-01-26 в 12:37, admin, рубрики: blender, blender 3d, blender 4.5, data engineering, data mining, изображения, искусственный интеллект, пайплайн, синтетические данные
Как загрузить GPU на максимум. Разбираем узкие места в инфраструктуре для ИИ
2025-10-30 в 6:32, admin, рубрики: cpu, gpu, Видеокарты, диск, инфраструктура, оперативная память, пайплайн, производительность, Процессоры, сетиПредставим, что вы запустили в облаке или на своем оборудованиии обучение модели. Выбрали конфигурацию с A100, H100 или L40S, может, даже с RTX 4090. Запускаете обучение модели, ждете, что процесс пойдет как по маслу. Но вместо э��ого в инструментах мониторинга видите, что GPU загружен на 40–60%, а то и меньше.
Причина не в «кривом коде» и не в том, что GPU «не тянут». Проблема глубже: производительность AI-кластера определяется не пиковыми терафлопсами, а самым слабым звеном в цепочке ввода-вывода. Даже самый быстрый GPU беспомощен, если данные не успевают до него «доехать». Он просто ждет.
Data Version Control (DVC): версионирование данных и воспроизводимость экспериментов
2019-07-30 в 13:53, admin, рубрики: open source, python, Raiffeisenbank, raiffeisenIT, Блог компании Райффайзенбанк, версионирование, машинное обучение, пайплайнЭта статья — своеобразный мастер-класс «DVC для автоматизации ML экспериментов и версионирования данных», который прошел 18 июня на митапе ML REPA (Machine Learning REPA:
Reproducibility, Experiments and Pipelines Automation) на площадке нашего банка.
Тут я расскажу об особенностях внутренней работы DVC и способах применения его в проектах.
Примеры кода, используемые в статье доступны здесь. Код тестировался на MacOS и Linux (Ubuntu).

Как машинное обучение в YouDo катится в продакшен. Лекция в Яндексе
2018-11-04 в 8:00, admin, рубрики: canary, continious delivery, continious integration, event stream processing, feature toggle, gitflow, nomad, youdo, Блог компании Яндекс, машинное обучение, мердж, Микросервисная архитектура, оркестрация, пайплайн, продакшен, Промышленное программированиеВ крупных сервисах решить какую-нибудь задачу с помощью машинного обучения — означает выполнить только часть работы. Встраивать ML-модели не так уж просто, а налаживать вокруг них CI/CD-процессы еще сложнее. На конференции Яндекса «Data & Science: программа по заявкам» руководитель направления data science в компании YouDo Адам Елдаров рассказал о том, как управлять жизненным циклом моделей, настраивать процессы дообучения и переобучения, разрабатывать масштабируемые микросервисы, и о многом другом.
— Начнем с вводных. Есть data scientist, он в Jupyter Notebook пишет какой-то код, делает фиче-инжениринг, кросс-валидацию, тренирует модельки. Скор растет.Читать полностью »
