Рубрика «feature engineering»

Одна строка — много объектов: как агрегировать эмбеддинги для ML-моделей

2026-06-04 в 16:45, admin, рубрики: attention, feature engineering, llm, nlp, pooling, агрегация, искусственный интеллект, машинное обучение, эмбеддинги

Коротко

Иногда в задаче машинного обучения одна строка датасета соответствует не одному объекту, а целому набору связанных объектов.

Например:

день по акции -> много новостей
пользователь -> много комментариев
товар -> много фотографий
клиент -> много обращений в поддержку
сессия -> много событий

Каждый такой объект можно представить эмбеддингом. Новость — текстовым эмбеддингом, картинку — визуальным эмбеддингом, событие — вектором признаков или embedding‑представлением.

Читать полностью »

От «обезьяньей» работы к Smart-анализу: как выполнить предобработку данных для моделей

2025-12-09 в 21:25, admin, рубрики: data science, exploratory data analysis, feature engineering, machine learning, numpy, pandas, sklearn, statistics

Мы частенько шутим с коллегами , что любые действия можно поделить на «обезьяньи» и «smart»Читать полностью »

Анализ и моделирование футбольных результатов английской Премьер-лиги с использованием методов машинного обучения

2024-10-04 в 10:24, admin, рубрики: feature engineering, naive bayes, random forest, SVM, xgboost, градиентный бустинг, классификация, машинное обучение, отбор признаков, случайный лес

Предисловие

Читать полностью »

Audio AI: выделяем вокал из музыки с помощью свёрточных нейросетей

2019-02-20 в 20:54, admin, рубрики: audio source separation, cnn, feature engineering, keras, вокал, звук, звук как изображение, машинное обучение, обработка изображений, обработка сигналов, разделение источников звука, разделение сигнала

Взлом музыки для демократизации производного контента

Отказ от ответственности: вся интеллектуальная собственность, проекты и методы, описанные в этой статье, раскрыты в патентах US10014002B2 и US9842609B2.

Вот бы вернуться в 1965 год, постучать в парадную дверь студии «Эбби-Роуд» с пропуском, зайти внутрь — и услышать настоящие голоса Леннона и Маккартни… Что ж, давайте попробуем. Входные данные: MP3 среднего качества песни «Битлз» We Can Work it Out. Верхняя дорожка — входной микс, нижняя дорожка — изолированный вокал, который выделила наша нейросеть.

Читать полностью »

Открытый урок «Feature Engineering на примере классического датасета Титаника»

2018-12-13 в 15:41, admin, рубрики: big data, data mining, data science, data scientist, feature engineering, Блог компании Отус, Программирование

И снова привет!

В декабре у нас стартует обучение очередной группы «Data scientist», поэтому открытых уроков и прочих активностей становится всё больше. Например, буквально на днях прошёл вебинар под длинным названием «Feature Engineering на примере классического датасета Титаника». Его провёл Александр Сизов — опытный разработчик, кандидат технических наук, эксперт по Machine/Deep learning и участник различных коммерческих международных проектов, связанных с искусственным интеллектом и анализом данных.

Открытый урок занял около полутора часов. В ходе вебинара преподаватель рассказал про подбор признаков, преобразование исходных данных (кодирование, масштабирование), настройку параметров, обучение модели и много чего ещё. В процессе проведения урока участникам показывалась тетрадь Jupyter Notebook. Для работы использовались открытые данные с платформы Kaggle (классический датасет про «Титаник», с которого многие начинают знакомство с Data Science). Ниже предлагаем видео и транскрипт прошедшего мероприятия, а тут можно забрать презентацию и коды в юпитеровском ноутбуке.

Читать полностью »

Оценка параметров старения с помощью носимой электроники. Лекция в Яндексе

2017-06-11 в 12:36, admin, рубрики: feature engineering, hazards, lifestyle, transitions, unsupervised learning, акселерометр, Блог компании Яндекс, Исследования и прогнозы в IT, марковский процесс, машинное обучение, носимые устройства, продолжительность жизни, фитнес-трекеры

Носимые устройства сейчас в моде, но используются в основном для фитнеса и спорта. Как найти им другое применение? Что они могут рассказать о нашем здоровье и продолжительности жизни? А главное — как оценивать поступающие с них данные? Руководитель направления mHealth R&D в компании Gero Тимофей Пырков прочитал отличную лекцию, посвящённую локомоторной активности человека.

Под катом — расшифровка и большинство слайдов.

Читать полностью »

Открытый курс машинного обучения. Тема 6. Построение и отбор признаков

2017-04-03 в 11:07, admin, рубрики: data mining, feature engineering, feature extraction, machine learning, mlcourse_open, ods, open data science, python, Алгоритмы, Блог компании Open Data Science, машинное обучение

Сообщество Open Data Science приветствует участников курса!

В рамках курса мы уже познакомились с несколькими ключевыми алгоритмами машинного обучения. Однако перед тем как переходить к более навороченным алгоритмам и подходам, хочется сделать шаг в сторону и поговорить о подготовке данных для обучения модели. Известный принцип garbage in – garbage out на 100% применим к любой задаче машинного обучения; любой опытный аналитик может вспомнить примеры из практики, когда простая модель, обученная на качественно подготовленных данных, показала себя лучше хитроумного ансамбля, построенного на недостаточно чистых данных.

Открытый курс машинного обучения. Тема 6. Построение и отбор признаков - 1

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «feature engineering»

Одна строка — много объектов: как агрегировать эмбеддинги для ML-моделей

Коротко

От «обезьяньей» работы к Smart-анализу: как выполнить предобработку данных для моделей

Анализ и моделирование футбольных результатов английской Премьер-лиги с использованием методов машинного обучения

Audio AI: выделяем вокал из музыки с помощью свёрточных нейросетей

Открытый урок «Feature Engineering на примере классического датасета Титаника»

Оценка параметров старения с помощью носимой электроники. Лекция в Яндексе

Открытый курс машинного обучения. Тема 6. Построение и отбор признаков