Главная

Рубрика «boosting»

XGBoost альтернатива CatBoost для работы с категориальными данными???

2025-11-11 в 13:46, admin, рубрики: boosting, catboost, xgboost, категориальные данные, категориальные признаки, сырые данные

Кратко:

22 сентября 2025г. вышла версия 3.10 XGBoost. Основной фишкой новой версии стал "категориальный ре-кодер(categorical re-coder)". Он сохраняет категории в модели и так же может перекодировать данные на этапе инференса. И целью этой статьи является сравнить возможности новой версии XGBoost c лидером обработки категориальных данных, CatBoost.

Основные вопросы:

Кто обучает на сырых данных?
Что такое этот категориальный ре-кодер?
Можно ли обучить модель полностью на сырых данных и получить приемлемый результат?Читать полностью »

Вся суть ансамблей на примере Случайного Леса и Градиентного Бустинга

2025-10-09 в 15:46, admin, рубрики: boosting, Gradient Boosting, ml, random forest

Изучая классическое машинное обучение, я постоянно натыкался на парадокс: материалов много, а интуитивно понятных объяснений, почему ансамбли — это так мощно, на удивление мало.
Я хочу это исправить. В этой статье мы разложим по полочкам саму концепцию ансамблей. А затем по логике ансамблей разберем двух "королей" этого подхода: Случайный Лес и Градиентный Бустинг.

Концепция ансамблей в машинном обучении

Ансамбли - это такая парадигма машинного обучения, в которой несколько слабых моделей обучаются решать одну задачу, и объединяются чтобы получить лучшие результаты.

Читать полностью »

Открытый курс машинного обучения. Тема 10. Градиентный бустинг. Часть 1

2017-05-18 в 10:49, admin, рубрики: boosting, data mining, Gradient Boosting, kaggle, loss function, machine learning, Алгоритмы, Блог компании Open Data Science, градиентный бустинг, гуси, математика, машинное обучение, мясорубка

Открытый курс машинного обучения. Тема 10. Градиентный бустинг. Часть 1 - 1

Всем привет! Настало время пополнить наш с вами алгоритмический арсенал.

Сегодня мы основательно разберем один из наиболее популярных и применяемых на практике алгоритмов машинного обучения — градиентный бустинг. Наша задача — основательно разобраться в бустинге, поэтому статья разбита на 2 части: сегодня мы разберем основную теорию алгоритма, а через 2 недели — практику.

О том, откуда у бустинга растут корни и что на самом деле творится под капотом алгоритма — в нашем красочном путешествии в мир бустинга под катом. Рванули!

Читать полностью »

Открытый курс машинного обучения. Тема 5. Композиции: бэггинг, случайный лес

2017-03-27 в 11:28, admin, рубрики: bagging, boosting, forest, mlcourse_open, ods, open data science, python, random forest, tree, Алгоритмы, Блог компании Open Data Science, математика, машинное обучение

Привет всем, кто дожил до пятой темы нашего курса!

Курс собрал уже более 1000 участников, из них первые 3 домашних задания сделали 520, 450 и 360 человек соответственно. Открытый курс машинного обучения. Тема 5. Композиции: бэггинг, случайный лес - 1 Около 200 участников пока идут с максимальным баллом. Отток намного ниже, чем в MOOC-ах, даже несмотря на большой объем наших статей.

Данное занятие мы посвятим простым методам композиции: бэггингу и случайному лесу. Вы узнаете, как можно получить распределение среднего по генеральной совокупности, если у нас есть информация только о небольшой ее части; посмотрим, как с помощью композиции алгоритмов уменьшить дисперсию, и таким образом улучшим точность модели; разберём, что такое случайный лес, какие его параметры нужно «подкручивать» и как найти самый важный признак. Сконцентрируемся на практике, добавив «щепотку» математики.

Список статей серии