Рубрика «xgboost»

XGBoost альтернатива CatBoost для работы с категориальными данными???

2025-11-11 в 13:46, admin, рубрики: boosting, catboost, xgboost, категориальные данные, категориальные признаки, сырые данные

Кратко:

22 сентября 2025г. вышла версия 3.10 XGBoost. Основной фишкой новой версии стал "категориальный ре-кодер(categorical re-coder)". Он сохраняет категории в модели и так же может перекодировать данные на этапе инференса. И целью этой статьи является сравнить возможности новой версии XGBoost c лидером обработки категориальных данных, CatBoost.

Основные вопросы:

Кто обучает на сырых данных?
Что такое этот категориальный ре-кодер?
Можно ли обучить модель полностью на сырых данных и получить приемлемый результат?Читать полностью »

Лучшие фреймворки для машинного обучения в 2025 году

2025-09-25 в 7:46, admin, рубрики: catboost, jax, LightGBM, ml, pytorch, scikit-learn, TensorFlow, xgboost, фреймворки

Сегодня ни один крупный проект в области машинного обучения (ML) не обходится без фреймворков — готовых наборов библиотек, в которых базовые алгоритмы уже оптимизированы для различных архитектур. Выбор правильного фреймворка не только упрощает разработку, но и определяет успех проектов по внедрению искусственного интеллекта.

Читать полностью »

Анализ и прогнозирование погодных условий

2025-05-28 в 16:34, admin, рубрики: LSTM, Meteostat, postgresql, xgboost, прогнозирование погоды

Введение в предметную область

Настоящее исследование посвящено комплексному анализу глобальных климатических изменений на основе исторических метеорологических данных за период с 1950 по 2024 год. Мы фокусируемся на шести ключевых странах, представляющих основные климатические зоны планеты.

Постановка задач анализа

Основные задачи исследования можно сформулировать следующим образом:

Сбор и предварительная обработка данных
Анализ климатических изменений
Прогнозирование климатических параметров
Визуализация результатов

Научные гипотезы исследования

Читать полностью »

Анализ и моделирование футбольных результатов английской Премьер-лиги с использованием методов машинного обучения

2024-10-04 в 10:24, admin, рубрики: feature engineering, naive bayes, random forest, SVM, xgboost, градиентный бустинг, классификация, машинное обучение, отбор признаков, случайный лес

Предисловие

Читать полностью »

Жизненный цикл ML в боевых условиях

2019-07-04 в 12:09, admin, рубрики: data science, gitlab, pipeline, usedataconf, xgboost, Анализ и проектирование систем, Блог компании Конференции Олега Бунина (Онтико), высокая производительность, машинное обучение, Программирование

В реальном внедрении ML само обучение занимает от силы четверть усилий. Остальные три четверти — подготовка данных через боль и бюрократию, сложный деплой часто в закрытом контуре без доступа в интернет, настройка инфраструктуры, тестирование и мониторинг. Документы на сотни листов, ручной режим, конфликты версий моделей, open source и суровый enterprise — все это ждет data scientist’а. Но такие «скучные» вопросы эксплуатации ему не интересны, он хочет разработать алгоритм, добиться высокого качества, отдать и больше не вспоминать.

Возможно, где-то ML внедряется легче, проще, быстрее и одной кнопкой, но мы таких примеров не видели. Все, что выше — опыт компании Front Tier в финтехе и телекоме. О нем на HighLoad++ рассказал Сергей Виноградов — эксперт в архитектуре высоконагруженных систем, в больших хранилищах и тяжелом анализе данных.

Жизненный цикл ML в боевых условиях - 1
Читать полностью »

Рекомендации в Okko: как заработать сотни миллионов, перемножив пару матриц

2019-06-03 в 8:37, admin, рубрики: luigi, Okko, pikachu, python, splunk, xgboost, Yota, Алгоритмы, Блог компании Okko, внутренняя империя, искусственный интеллект, машинное обучение, рекомендательные системы

Rekko — персональные рекомендации в онлайн-кинотеатре Okko

Знакома ли вам ситуация, когда на выбор фильма вы тратите гигантское количество времени, сопоставимое со временем самого просмотра? Для пользователей онлайн-кинотеатров это частая проблема, а для самих кинотеатров — упущенная прибыль.

К счастью, у нас есть Rekko — система персональных рекомендаций, которая уже год успешно помогает пользователям Okko выбирать фильмы и сериалы из более чем десяти тысяч единиц контента. В статье я расскажу вам как она устроена с алгоритмической и технической точек зрения, как мы подходим к её разработке и как оцениваем результаты. Ну и про сами результаты годового A/B теста тоже расскажу.

Читать полностью »

Как мы предсказывали отток, подойдя к нему как к стихийному бедствию

2019-03-21 в 14:15, admin, рубрики: AI, catboost, data science, Lift Curve, LightGBM, LSTM, xgboost, Блог компании Ростелеком, искусственный интеллект, машинное обучение, распределение Вейбулла, Ростелеком, спутник, хакатон, Хакатоны

Иногда для того, чтобы решить какую-то проблему, надо просто взглянуть на нее под другим углом. Даже если последние лет 10 подобные проблемы решали одним и тем же способом с разным эффектом, не факт, что этот способ единственный.

Есть такая тема, как отток клиентов. Штука неизбежная, потому что клиенты любой компании могут по множеству причин взять и перестать пользоваться ее продуктами или сервисами. Само собой, для компании отток — хоть и естественное, но не самое желаемое действие, поэтому все стараются этот отток минимизировать. А еще лучше — предсказывать вероятность оттока той или иной категории пользователей, или конкретного пользователя, и предлагать какие-то шаги по удержанию.

Анализировать и пытаться удержать клиента, если это возможно, нужно, как минимум, по следующим причинам:

привлечение новых клиентов дороже процедур удержания. На привлечение новых клиентов, как правило, нужно потратить определенные деньги (реклама), в то время как существующих клиентов можно активизировать специальным предложением с особыми условиями;
понимание причин ухода клиентов — ключ к улучшению продуктов и услуг.

Существуют стандартные подходы к прогнозированию оттока. Но на одном из чемпионатов по ИИ мы решили взять и попробовать для этого распределение Вейбулла. Чаще всего его используют для анализа выживаемости, прогнозирования погоды, анализа стихийных бедствий, в промышленной инженерии и подобном. Распределение Вейбулла — специальная функция распределения, параметризуемая двумя параметрами $λ$ и $k$ .

Википедия

В общем, вещь занятная, но для прогнозирования оттока, да и вообще в финтехе, использующаяся не так, чтобы часто. Под катом расскажем, как мы (Лаборатория интеллектуального анализа данных) это сделали, попутно завоевав золото на Чемпионате по искусственному интеллекту в номинации «AI в банках».
Читать полностью »

Пишем XGBoost с нуля — часть 2: градиентный бустинг

2019-02-07 в 9:44, admin, рубрики: big data, data mining, python, xgboost, алгоритм, Алгоритмы, Блог компании Mail.Ru Group, нейросеть, решающие деревья

Всем привет!

В прошлой статье мы разбирались, как устроены решающие деревья, и с нуля реализовали
алгоритм построения, попутно оптимизируя и улучшая его. В этой статье мы реализуем алгоритм градиентного бустинга и в конце создадим свой собственный XGBoost. Повествование будет идти по той же схеме: пишем алгоритм, описываем его, в заверешение подводим итоги, сравнивая результаты работы с аналогами из Sklearn'а.

В этой статье упор тоже будет сделан на реализацию в коде, поэтому всю теорию лучше почитать в другом вместе (например, в курсе ODS), и уже со знанием теории можно переходить к этой статье, так как тема достаточно сложная.

Пишем XGBoost с нуля — часть 2: градиентный бустинг - 2
Читать полностью »

Что внутри XGBoost, и при чем здесь Go

2018-09-17 в 17:46, admin, рубрики: c++, Go, LightGBM, xgboost, машинное обучение, предсказания

В мире машинного обучения одними из самых популярных типов моделей являются решающее дерево и ансамбли на их основе. Преимуществами деревьев являются: простота интерпретации, нет ограничений на вид исходной зависимости, мягкие требования к размеру выборку. Деревья имеют и крупный недостаток — склонность к переобучению. Поэтому почти всегда деревья объединяют в ансамбли: случайный лес, градиентный бустинг и др. Сложной теоретической и практической задачей является составление деревьев и объединение их в ансамбли.

В данной же статье будут рассмотрены процедура формирования предсказаний по уже обученной модели ансамбля деревьев, особенности реализаций в популярных библиотеках градиентного бустинга XGBoost и LightGBM. А так же читатель познакомится с библиотекой leaves для Go, которая позволяет делать предсказания для ансамблей деревьев, не используя при этом C API оригинальных библиотек.
Читать полностью »

Прогнозирование продаж недвижимости. Лекция в Яндексе

2018-08-19 в 13:07, admin, рубрики: catboost, scikit-learn, xgboost, Блог компании Яндекс, линейная регрессия, машинное обучение, Спортивное программирование

Успех в проектах по машинному обучению обычно связан не только с умением применять разные библиотеки, но и с пониманием той области, откуда взяты данные. Отличной иллюстрацией этого тезиса стало решение, предложенное командой Алексея Каюченко, Сергея Белова, Александра Дроботова и Алексея Смирнова в конкурсе PIK Digital Day. Они заняли второе место, а спустя пару недель рассказали о своём участии и построенных моделях на очередной ML-тренировке Яндекса.

Алексей Каюченко:
— Добрый день! Мы расскажем о соревновании PIK Digital Day, в котором мы участвовали. Немного о команде. Нас было четыре человека. Все с абсолютно разным бэкграундом, из разных областей. На самом деле, мы на финале познакомились. Команда сформировалась буквально за день до финала. Я расскажу про ход конкурса, организацию работы. Потом выйдет Сережа, он расскажет про данные, а Саша расскажет уже про сабмишен, про финальный ход работы и про то, как мы двигались по лидерборду.

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «xgboost»

XGBoost альтернатива CatBoost для работы с категориальными данными???

Кратко:

Основные вопросы:

Лучшие фреймворки для машинного обучения в 2025 году

Анализ и прогнозирование погодных условий

Введение в предметную область

Постановка задач анализа

Научные гипотезы исследования

Анализ и моделирование футбольных результатов английской Премьер-лиги с использованием методов машинного обучения

Жизненный цикл ML в боевых условиях

Рекомендации в Okko: как заработать сотни миллионов, перемножив пару матриц

Как мы предсказывали отток, подойдя к нему как к стихийному бедствию

Пишем XGBoost с нуля — часть 2: градиентный бустинг

Что внутри XGBoost, и при чем здесь Go

Прогнозирование продаж недвижимости. Лекция в Яндексе