Рубрика «sklearn»
Компрессор для данных или как я написал свой первый custom transformer
2026-01-25 в 11:16, admin, рубрики: compression, custom transformer, data science, outliner, preprocessing, sklearn, transformer, анализ данных, выбросы
От «обезьяньей» работы к Smart-анализу: как выполнить предобработку данных для моделей
2025-12-09 в 21:25, admin, рубрики: data science, exploratory data analysis, feature engineering, machine learning, numpy, pandas, sklearn, statistics
Мы частенько шутим с коллегами , что любые действия можно поделить на «обезьяньи» и «smart»Читать полностью »
Линейная регрессия: как стать магом предсказаний с помощью статистических методов
2025-04-03 в 6:15, admin, рубрики: matplotlib, python, sklearn, для новичков, математикаМногие из нас мечтали бы заглянуть в будущее — ведь это по-настоящему полезный навык. А что, если я скажу, что при помощи математики можно приблизиться к этой мечте? Да, с некоторыми оговорками, но в этой статье мы попробуем почувствовать себя настоящим Докторам Стрэнджам и предсказать какую кассу соберет фильм при определенном бюджете.
Сегодня мы простыми словами разберёмся, что такое линейная регрессия и напишем код на Python, который демонстрирует работу линейной регрессии.
Интуиция
Как посчитать количество звёзд на фото?
2021-11-13 в 17:58, admin, рубрики: jpg, numpy, python, skimage, sklearn, звезды, искусственный интеллект, машинное обучение, обработка изображений, сегментация, фото
Всем привет!
Недавно я участвовал в олимпиаде по искусственному интеллекту на Python и там было много интересных задач, но самая интересная это про звезды на небе: "Дано фото звездного неба с земли. Задача: определить количество звёзд на небе"
Вроде бы не сложно, если фотка только со звездами, например:
Детектирование аномалий с помощью автоенкодеров на Python
2020-03-09 в 6:19, admin, рубрики: anomaly detection, autoencoder, machine learning, python, pytorch, sklearn, автоенкодер, автокодировщик, машинное обучение, ПрограммированиеДетектирование аномалий — интересная задача машинного обучения. Не существует какого-то определенного способа ее решения, так как каждый набор данных имеет свои особенности. Но в то же время есть несколько подходов, которые помогают добиться успеха. Я хочу рассказать про один из таких подходов — автоенкодеры.
Угадай меня, если сможешь: прогнозирование рейтинга фильма до его выхода
2019-09-10 в 20:13, admin, рубрики: data mining, data science, machine learning, open data, python, sklearn, машинное обучение, открытые данныеНедавно мне на глаза попался датасет на Kaggle с данными о 45 тысячах фильмов с Full MovieLens Dataset. Данные содержали не только информацию об актерах, съемочной команде, сюжете и т.п., но и оценки, выставленные фильмам пользователями ресурса (26 миллионов оценок от 270 тыс.пользователей).
Стандартная задача для таких данных — это рекомендательная система. Но мне в голову почему-то пришло прогнозирование рейтинга фильма на основе информации, доступной до его выхода. Я не знаток кинематографа, и поэтому обычно ориентируюсь на рецензии, выбирая что посмотреть из новинок. Но ведь рецензенты тоже несколько biased — они-то смотрят гораздо больше разных фильмов, чем рядовой зритель. Поэтому спрогнозировать, как оценит фильм обычная публика, показалось занятным. Читать полностью »
Говорит и показывает: отличается ли риторика популярных украинских политиков?
2019-03-11 в 12:29, admin, рубрики: machine learning, natural language processing, open data, python, sklearn, машинное обучение, открытые данныеМожно ли по цитате определить, кто из политиков ее автор? Украинская НКО Vox Ukraine делает проект VoxCheck, в рамках которого проверяет высказывания наиболее рейтинговых политиков. Недавно они выложили всю базу проверенных цитат. Я как раз слушаю курсы по NLP и решила проверить, насколько точно по тексту цитаты можно определить ее автора.
Disclaimer. Эта статья написана из интереса к теме и желания опробовать изученный материал на практике, без претензий на максимально точный и детальный анализ.
Читать полностью »
Краткий обзор алгоритма машинного обучения Метод Опорных Векторов (SVM)
2018-11-01 в 13:16, admin, рубрики: algorithms, big data, data science, machine learning, python, sklearn, математика, машинное обучение, ПрограммированиеПредисловие

В данной статье мы изучим несколько аспектов SVM:
- теоретическую составляющую SVM;
- как алгоритм работает на выборках, которые невозможно разбить на классылинейно;
- пример использования на Python и имплементация алгоритма в библиотеке SciKit Learn.
Хронология уровня CO в атмосфере США (решение задачи Kaggle с помощью Python+Feature Engineering)
2017-10-27 в 22:31, admin, рубрики: big data, kaggle, pandas, python, python3, seaborn, sklearn, визуализация данныхХочу поделиться опытом решения задачи по машинному обучению и анализу данных от Kaggle. Данная статья позиционируется как руководство для начинающих пользователей на примере не совсем простой задачи.
Выборка данных
Выборка данных содержит порядка 8,5 млн строк и 29 столбцов.Вот некоторые из параметров:
- Широта-latitude
- Долгота-longitude
- Способ взятия пробы-method_name
- Дата и время взятия пробы-date_local

Задача
- Найти параметры максимально влияющие на уровень CO в атмосфере.
- Создание гипотезы, предсказывающей уровень CO в атмосфере.
- Создание нескольких простых визуализаций.
Расчет оттока клиентов банка (решение задачи с помощью Python)
2017-05-24 в 9:18, admin, рубрики: kaggle, pandas, python, sklearn, Занимательные задачкиХочу поделиться опытом решения задачи по машинному обучению и анализу данных от Kaggle. Данная статья позиционируется как руководство для начинающих пользователей на примере не совсем простой задачи.Читать полностью »
