Рубрика «sklearn»

Мета-модель для диагностики обучения нейросетей

2026-03-15 в 18:15, admin, рубрики: ml, ml-инженер, mlops, python, random forest, sklearn

1. Проблема

Когда мы обучаем модели машинного обучения, почти всегда возникает один и тот же вопрос:

Что именно происходит во время обучения?

Обычно мы смотрим на графики метрик и пытаемся вручную интерпретировать происходящее:

Модель недообучена
Модель переобучена
Имбаланс датасета.
Сильно шумные данные.

Можно посмотреть на learning curves и понять, что происходит:

Читать полностью »

Компрессор для данных или как я написал свой первый custom transformer

2026-01-25 в 11:16, admin, рубрики: compression, custom transformer, data science, outliner, preprocessing, sklearn, transformer, анализ данных, выбросы

Компрессирование стационарного временного ряда

Читать полностью »

От «обезьяньей» работы к Smart-анализу: как выполнить предобработку данных для моделей

2025-12-09 в 21:25, admin, рубрики: data science, exploratory data analysis, feature engineering, machine learning, numpy, pandas, sklearn, statistics

Мы частенько шутим с коллегами , что любые действия можно поделить на «обезьяньи» и «smart»Читать полностью »

Линейная регрессия: как стать магом предсказаний с помощью статистических методов

2025-04-03 в 6:15, admin, рубрики: matplotlib, python, sklearn, для новичков, математика

Многие из нас мечтали бы заглянуть в будущее — ведь это по-настоящему полезный навык. А что, если я скажу, что при помощи математики можно приблизиться к этой мечте? Да, с некоторыми оговорками, но в этой статье мы попробуем почувствовать себя настоящим Докторам Стрэнджам и предсказать какую кассу соберет фильм при определенном бюджете.

Сегодня мы простыми словами разберёмся, что такое линейная регрессия и напишем код на Python, который демонстрирует работу линейной регрессии.

Интуиция

Читать полностью »

Как посчитать количество звёзд на фото?

2021-11-13 в 17:58, admin, рубрики: jpg, numpy, python, skimage, sklearn, звезды, искусственный интеллект, машинное обучение, обработка изображений, сегментация, фото

Всем привет!

Недавно я участвовал в олимпиаде по искусственному интеллекту на Python и там было много интересных задач, но самая интересная это про звезды на небе: "Дано фото звездного неба с земли. Задача: определить количество звёзд на небе"

Вроде бы не сложно, если фотка только со звездами, например:

Читать полностью »

Детектирование аномалий с помощью автоенкодеров на Python

2020-03-09 в 6:19, admin, рубрики: anomaly detection, autoencoder, machine learning, python, pytorch, sklearn, автоенкодер, автокодировщик, машинное обучение, Программирование

Детектирование аномалий — интересная задача машинного обучения. Не существует какого-то определенного способа ее решения, так как каждый набор данных имеет свои особенности. Но в то же время есть несколько подходов, которые помогают добиться успеха. Я хочу рассказать про один из таких подходов — автоенкодеры.

Читать полностью »

Угадай меня, если сможешь: прогнозирование рейтинга фильма до его выхода

2019-09-10 в 20:13, admin, рубрики: data mining, data science, machine learning, open data, python, sklearn, машинное обучение, открытые данные

Недавно мне на глаза попался датасет на Kaggle с данными о 45 тысячах фильмов с Full MovieLens Dataset. Данные содержали не только информацию об актерах, съемочной команде, сюжете и т.п., но и оценки, выставленные фильмам пользователями ресурса (26 миллионов оценок от 270 тыс.пользователей).

Стандартная задача для таких данных — это рекомендательная система. Но мне в голову почему-то пришло прогнозирование рейтинга фильма на основе информации, доступной до его выхода. Я не знаток кинематографа, и поэтому обычно ориентируюсь на рецензии, выбирая что посмотреть из новинок. Но ведь рецензенты тоже несколько biased — они-то смотрят гораздо больше разных фильмов, чем рядовой зритель. Поэтому спрогнозировать, как оценит фильм обычная публика, показалось занятным. Читать полностью »

Говорит и показывает: отличается ли риторика популярных украинских политиков?

2019-03-11 в 12:29, admin, рубрики: machine learning, natural language processing, open data, python, sklearn, машинное обучение, открытые данные

Можно ли по цитате определить, кто из политиков ее автор? Украинская НКО Vox Ukraine делает проект VoxCheck, в рамках которого проверяет высказывания наиболее рейтинговых политиков. Недавно они выложили всю базу проверенных цитат. Я как раз слушаю курсы по NLP и решила проверить, насколько точно по тексту цитаты можно определить ее автора.

Disclaimer. Эта статья написана из интереса к теме и желания опробовать изученный материал на практике, без претензий на максимально точный и детальный анализ.
Читать полностью »

Краткий обзор алгоритма машинного обучения Метод Опорных Векторов (SVM)

2018-11-01 в 13:16, admin, рубрики: algorithms, big data, data science, machine learning, python, sklearn, математика, машинное обучение, Программирование

Предисловие

Краткий обзор алгоритма машинного обучения Метод Опорных Векторов (SVM) - 1

В данной статье мы изучим несколько аспектов SVM:

теоретическую составляющую SVM;
как алгоритм работает на выборках, которые невозможно разбить на классылинейно;
пример использования на Python и имплементация алгоритма в библиотеке SciKit Learn.

Читать полностью »

Хронология уровня CO в атмосфере США (решение задачи Kaggle с помощью Python+Feature Engineering)

2017-10-27 в 22:31, admin, рубрики: big data, kaggle, pandas, python, python3, seaborn, sklearn, визуализация данных

Хочу поделиться опытом решения задачи по машинному обучению и анализу данных от Kaggle. Данная статья позиционируется как руководство для начинающих пользователей на примере не совсем простой задачи.

Выборка данных

Выборка данных содержит порядка 8,5 млн строк и 29 столбцов.Вот некоторые из параметров:

Широта-latitude
Долгота-longitude
Способ взятия пробы-method_name
Дата и время взятия пробы-date_local

Задача

Найти параметры максимально влияющие на уровень CO в атмосфере.
Создание гипотезы, предсказывающей уровень CO в атмосфере.
Создание нескольких простых визуализаций.

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «sklearn»

Мета-модель для диагностики обучения нейросетей

1. Проблема

Компрессор для данных или как я написал свой первый custom transformer

От «обезьяньей» работы к Smart-анализу: как выполнить предобработку данных для моделей

Линейная регрессия: как стать магом предсказаний с помощью статистических методов

Интуиция

Как посчитать количество звёзд на фото?

Детектирование аномалий с помощью автоенкодеров на Python

Угадай меня, если сможешь: прогнозирование рейтинга фильма до его выхода

Говорит и показывает: отличается ли риторика популярных украинских политиков?

Краткий обзор алгоритма машинного обучения Метод Опорных Векторов (SVM)

Предисловие

Хронология уровня CO в атмосфере США (решение задачи Kaggle с помощью Python+Feature Engineering)