Рубрика «random forest»

Поиск черной кошки в 2000-мерной темной комнате. Турнир алгоритмов машинного обучения

2026-06-08 в 10:21, admin, рубрики: benchmark, catboost, LightGBM, random forest, xgboost, исследование, нейросети, сравнение моделей

Эпиграф

Эксперимент завершен. Результаты выглядят так, будто я немного сломал законы физики привычного табличного ML.

Может быть это соревнование, которого не должно было быть?

Это приглашение к репликации.

Спрятать иголку в стоге сена? Да!

Добро пожаловать на мой маленький тестовый полигон.

Читать полностью »

Мета-модель для диагностики обучения нейросетей

2026-03-15 в 18:15, admin, рубрики: ml, ml-инженер, mlops, python, random forest, sklearn

1. Проблема

Когда мы обучаем модели машинного обучения, почти всегда возникает один и тот же вопрос:

Что именно происходит во время обучения?

Обычно мы смотрим на графики метрик и пытаемся вручную интерпретировать происходящее:

Модель недообучена
Модель переобучена
Имбаланс датасета.
Сильно шумные данные.

Можно посмотреть на learning curves и понять, что происходит:

Читать полностью »

Использование термодинамической помощи случайным лесам для многоклассификационных задач (с кодом Python)

2026-02-18 в 12:47, admin, рубрики: random forest, интерпретируемость ии, искусственный интеллект

Метод SHAP (SHapley Additive exPlanations), опирающийся на классическую теорию игр, утвердился в качестве стандарта для оценки значимости признаков в моделях машинного обучения. В задачах бинарной классификации процесс построения графиков waterfall plot или beeswarm plot достаточно тривиален и подробно описан в документации.

Однако при переходе к многоклассовой классификации возникают сложности, связанные с изменением размерности выходных данных. Прямое применение стандартного кода к многомерным выходным данным часто приводит к ошибкам несовпадения размерностей или некорректной интерпретации результатов.

Читать полностью »

Вся суть ансамблей на примере Случайного Леса и Градиентного Бустинга

2025-10-09 в 15:46, admin, рубрики: boosting, Gradient Boosting, ml, random forest

Изучая классическое машинное обучение, я постоянно натыкался на парадокс: материалов много, а интуитивно понятных объяснений, почему ансамбли — это так мощно, на удивление мало.
Я хочу это исправить. В этой статье мы разложим по полочкам саму концепцию ансамблей. А затем по логике ансамблей разберем двух "королей" этого подхода: Случайный Лес и Градиентный Бустинг.

Концепция ансамблей в машинном обучении

Ансамбли - это такая парадигма машинного обучения, в которой несколько слабых моделей обучаются решать одну задачу, и объединяются чтобы получить лучшие результаты.

Читать полностью »

Анализ и моделирование футбольных результатов английской Премьер-лиги с использованием методов машинного обучения

2024-10-04 в 10:24, admin, рубрики: feature engineering, naive bayes, random forest, SVM, xgboost, градиентный бустинг, классификация, машинное обучение, отбор признаков, случайный лес

Предисловие

Читать полностью »

Random Forest, метод главных компонент и оптимизация гиперпараметров: пример решения задачи классификации на Python

2020-02-14 в 10:15, admin, рубрики: python, random forest, Алгоритмы, Блог компании RUVDS.com, машинное обучение

У специалистов по обработке и анализу данных есть множество средств для создания классификационных моделей. Один из самых популярных и надёжных методов разработки таких моделей заключается в использовании алгоритма «случайный лес» (Random Forest, RF). Для того чтобы попытаться улучшить показатели модели, построенной с использованием алгоритма RF, можно воспользоваться оптимизацией гиперпараметров модели (Hyperparameter Tuning, HT).

Кроме того, распространён подход, в соответствии с которым данные, перед их передачей в модель, обрабатывают с помощью метода главных компонент (Principal Component Analysis, PCA). Но стоит ли вообще этим пользоваться? Разве основная цель алгоритма RF заключается не в том, чтобы помочь аналитику интерпретировать важность признаков?
Читать полностью »

Как программист новую машину подбирал

2018-11-19 в 9:48, admin, рубрики: data mining, predictive analytics, R, R-project, random forest, Алгоритмы, машинное обучение, покупка автомобиля, Программирование

В предыдущих статьях (I, II, III) я подробно рассказывал о разработке сервиса для поиска выгодных б/у автомобилей в РФ.
Поездив продолжительное время на различных б/у машинах, я задумался о приобретении нового авто и решил этот вопрос подробно изучить. В крупных городах существует огромное количество официальных дилеров, по крайней мере для популярных брендов. Дилеры отличаются друг от друга перечнем автомобилей в наличии и размером предоставляемых скидок на различные модели. В поисках интересующих меня автомобилей мне не хотелось обзванивать и посещать всех дилеров подряд. На мой взгляд, разумно было предварительно отобрать по априорной информации только тех дилеров, которые предоставляют самые низкие цены на интересующие меня модели и комплектации. Тот факт, что при личном общении, если уметь торговаться, размер скидки может существенно возрасти никак не противоречит цели в первую очередь посетить дилеров, предоставляющих наиболее выгодные цены на рынке.
Я собрал данные о новых автомобилях, проанализировал, оформил в виде сервиса, и под конец года, когда скидки у дилеров максимальны, решил поделиться им с вами.

Как программист новую машину подбирал - 1

Читать полностью »

Полёты на падающих снежинках

2017-12-02 в 8:40, admin, рубрики: catboost, data mining, php, R, random forest, веб-аналитика, Разработка веб-сайтов, статистика

1. Вступление

В очень сильно нагруженных порталах или API может возникать потребность в применении алгоритмов машинного обучения, например, с целью классификации пользователей. В рамках данной заметки будет показан процесс реализации некоторых высокопроизводительных линейных моделей, а также даны объяснения основных теоретических принципов.

Читать полностью »

Практика анализа данных в прикладной психологии

2017-10-21 в 10:41, admin, рубрики: catboost, data mining, python, R, random forest, машинное обучение, психология, статистика

Практика анализа данных в прикладной психологии - 1

1. Вступление

Показан процесс анализа информации в сфере прикладной психологии. Если быть более точным, то я поделюсь своим опытом поиска различий между двумя группами людей. Будет показан один из самых популярных сценариев решения подобной задачи, а также приведены примеры исходного кода на языках программирования R и Python. Важно понимать, что вся изложенная информация является моим личным субъективным мнением.

Читать полностью »

Открытый курс машинного обучения. Тема 5. Композиции: бэггинг, случайный лес

2017-03-27 в 11:28, admin, рубрики: bagging, boosting, forest, mlcourse_open, ods, open data science, python, random forest, tree, Алгоритмы, Блог компании Open Data Science, математика, машинное обучение

Привет всем, кто дожил до пятой темы нашего курса!

Курс собрал уже более 1000 участников, из них первые 3 домашних задания сделали 520, 450 и 360 человек соответственно. Открытый курс машинного обучения. Тема 5. Композиции: бэггинг, случайный лес - 1 Около 200 участников пока идут с максимальным баллом. Отток намного ниже, чем в MOOC-ах, даже несмотря на большой объем наших статей.

Данное занятие мы посвятим простым методам композиции: бэггингу и случайному лесу. Вы узнаете, как можно получить распределение среднего по генеральной совокупности, если у нас есть информация только о небольшой ее части; посмотрим, как с помощью композиции алгоритмов уменьшить дисперсию, и таким образом улучшим точность модели; разберём, что такое случайный лес, какие его параметры нужно «подкручивать» и как найти самый важный признак. Сконцентрируемся на практике, добавив «щепотку» математики.

Список статей серии

Первичный анализ данных с Pandas
Визуальный анализ данных c Python
Классификация, деревья решений и метод ближайших соседей
Линейные модели классификации и регрессии
Композиции: бэггинг, случайный лес
Обучение без учителя: PCA, кластеризация, поиск аномалий
Искусство построения и отбора признаков. Приложения в задачах обработки текста, изображений и гео-данных

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «random forest»

Поиск черной кошки в 2000-мерной темной комнате. Турнир алгоритмов машинного обучения

Эпиграф

Спрятать иголку в стоге сена? Да!

Мета-модель для диагностики обучения нейросетей

1. Проблема

Использование термодинамической помощи случайным лесам для многоклассификационных задач (с кодом Python)

Вся суть ансамблей на примере Случайного Леса и Градиентного Бустинга

Концепция ансамблей в машинном обучении

Анализ и моделирование футбольных результатов английской Премьер-лиги с использованием методов машинного обучения

Random Forest, метод главных компонент и оптимизация гиперпараметров: пример решения задачи классификации на Python

Как программист новую машину подбирал

Полёты на падающих снежинках

1. Вступление

Практика анализа данных в прикладной психологии

1. Вступление

Открытый курс машинного обучения. Тема 5. Композиции: бэггинг, случайный лес