Рубрика «sklearn» - 2

Расчет оттока клиентов банка (решение задачи с помощью Python)

2017-05-24 в 9:18, admin, рубрики: kaggle, pandas, python, sklearn, Занимательные задачки

Хочу поделиться опытом решения задачи по машинному обучению и анализу данных от Kaggle. Данная статья позиционируется как руководство для начинающих пользователей на примере не совсем простой задачи.Читать полностью »

Интересные алгоритмы кластеризации, часть вторая: DBSCAN

2017-02-20 в 6:46, admin, рубрики: cluster, clustering, data mining, dbscan, exotic clusters, graphs, manifold, python, sklearn, Алгоритмы, математика, машинное обучение

Углубимся ещё немного в малохоженные дебри Data Science. Сегодня в очереди на препарацию алгоритм кластеризации DBSCAN. Прошу под кат людей, которые сталкивались или собираются столкнуться с кластеризацией данных, в которых встречаются сгустки произвольной формы — сегодня ваш арсенал пополнится отличным инструментом.

Интересные алгоритмы кластеризации, часть вторая: DBSCAN - 1
Читать полностью »

Как различать британскую и американскую литературу с помощью машинного обучения

2017-01-18 в 8:25, admin, рубрики: machine learning, natural language processing, python, sklearn, машинное обучение

Однажды мне стало интересно, отличается ли британская и американская литература с точки зрения выбора слов, и если отличается, удастся ли мне обучить классификатор, который бы различал литературные тексты с точки зрения частоты использованных слов. Различать тексты, написанные на разных языках, довольно легко, мощность пересечения множества слов небольшая относительно множества слов в выборке. Классификация текста по категориям «наука», «христианство», «компьютерная графика», «атеизм», — всем известный hello world среди задач по работе с частотностью текста. Передо мной стояла более сложная задача, так как я сравнивала два диалекта одного языка, а тексты не имели общей смысловой направленности.

Читать полностью »

Визуализация фото-портфолио. Часть 2: Word embedding

2016-09-03 в 15:07, admin, рубрики: data mining, data science, dimensionality reduction, pointwise mutual information, sklearn, SVD, t-sne, word embedding, визуализация данных, машинное обучение

Визуализация портфолио (на данном рисунке, чем краснее область, тем больше среднескачиваемых фото в этой области)

В предыдущей части речь шла о разбиении фото-портфолио по сигналам с предпоследнего слоя модели inceptionV3. В этой части я расскажу, как разбивать портфолио по ключевым словам.Читать полностью »

Визуализация фото-портфолио. Часть 1: Нестандартное применение deep learning

2016-09-03 в 13:23, admin, рубрики: data mining, data science, deep learning, dimensionality reduction, inceptionV3, keras, sklearn, t-sne, truncatedSVD, визуализация данных, машинное обучение

Визуализация портфолио (на данном рисунке, чем краснее область, тем больше фото в этой области, имеющих нулевое количество скачиваний)

Коротко о задаче: есть фото-портфолио с большим количеством фото, хотим узнать список популярных и не популярных тем.
Читать полностью »

Решение задачи «Оценка производительности» mlbootcamp.ru

2016-07-18 в 15:54, admin, рубрики: python, sklearn, машинное обучение, регрессия, соревнование

Осталось менее трех дней до окончания конкурса «Оценка производительности». Возможно, данная статья кому-то поможет улучшить свое решение. Суть задачи — предсказать время умножения двух матриц на разных вычислительных системах. В качестве оценки качества предсказания берется наименьшая средняя относительная ошибка MAPE.

На текущий момент первое место — 4.68%. Ниже хочу описать свой путь к 6.69% (а это уже 70+ место).
Читать полностью »

Как работает метод главных компонент (PCA) на простом примере

2016-06-27 в 13:06, admin, рубрики: data mining, PCA, python, sklearn, Алгоритмы, главные компоненты, математика на пальцах, машинное обучение, эконометрика, метки: pca

Как работает метод главных компонент (PCA) на простом примере - 1

В этой статье я бы хотел рассказать о том, как именно работает метод анализа главных компонент (PCA – principal component analysis) с точки зрения интуиции, стоящей за ее математическим аппаратом. Максимально просто, но подробно.
Читать полностью »

Распознавание DGA доменов. А что если нейронные сети?

2016-04-29 в 6:03, admin, рубрики: botnets, DGA, information security, lasagne, LSTM, machine learning, Malware, natural language processing, neural networks, sklearn, theano, Блог компании «Digital Security», информационная безопасность, машинное обучение

Распознавание DGA доменов. А что если нейронные сети? - 1

Всем привет!

Сегодня мы поговорим про распознавание доменов, сгенерированных при помощи алгоритмов генерации доменных имен. Посмотрим на существующие методы, а также предложим свой, на основе рекуррентных нейронных сетей. Интересно? Добро пожаловать под кат.

Читать полностью »

Kaggle и Titanic — еще одно решение задачи с помощью Python

2015-12-28 в 16:16, admin, рубрики: kaggle, matplotlib, ml, pandas, python, sklearn, titanic, xdboost, машинное обучение, Программирование, Спортивное программирование

Хочу поделиться опытом работы с задачей известного конкурса по машинному обучению от Kaggle. Этот конкурс позиционируется как конкурс для начинающих, а у меня как раз не было почти никакого практического опыта в этой области. Я немного знал теорию, но с реальными данными дела почти не имел и с питоном плотно не работал. В итоге, потратив пару предновогодних вечеров, набрал 0.80383 (первая четверть рейтинга).

Kaggle и Titanic — еще одно решение задачи с помощью Python - 1

В общем эта статья для еще начинающих от уже начавшего.

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «sklearn» - 2

Расчет оттока клиентов банка (решение задачи с помощью Python)

Интересные алгоритмы кластеризации, часть вторая: DBSCAN

Как различать британскую и американскую литературу с помощью машинного обучения

Визуализация фото-портфолио. Часть 2: Word embedding

Визуализация фото-портфолио. Часть 1: Нестандартное применение deep learning

Решение задачи «Оценка производительности» mlbootcamp.ru

Как работает метод главных компонент (PCA) на простом примере

Распознавание DGA доменов. А что если нейронные сети?

Kaggle и Titanic — еще одно решение задачи с помощью Python