Углубимся ещё немного в малохоженные дебри Data Science. Сегодня в очереди на препарацию алгоритм кластеризации DBSCAN. Прошу под кат людей, которые сталкивались или собираются столкнуться с кластеризацией данных, в которых встречаются сгустки произвольной формы — сегодня ваш арсенал пополнится отличным инструментом.
Рубрика «sklearn» - 2
Интересные алгоритмы кластеризации, часть вторая: DBSCAN
2017-02-20 в 6:46, admin, рубрики: cluster, clustering, data mining, dbscan, exotic clusters, graphs, manifold, python, sklearn, Алгоритмы, математика, машинное обучениеКак различать британскую и американскую литературу с помощью машинного обучения
2017-01-18 в 8:25, admin, рубрики: machine learning, natural language processing, python, sklearn, машинное обучениеОднажды мне стало интересно, отличается ли британская и американская литература с точки зрения выбора слов, и если отличается, удастся ли мне обучить классификатор, который бы различал литературные тексты с точки зрения частоты использованных слов. Различать тексты, написанные на разных языках, довольно легко, мощность пересечения множества слов небольшая относительно множества слов в выборке. Классификация текста по категориям «наука», «христианство», «компьютерная графика», «атеизм», — всем известный hello world среди задач по работе с частотностью текста. Передо мной стояла более сложная задача, так как я сравнивала два диалекта одного языка, а тексты не имели общей смысловой направленности.

Визуализация фото-портфолио. Часть 1: Нестандартное применение deep learning
2016-09-03 в 13:23, admin, рубрики: data mining, data science, deep learning, dimensionality reduction, inceptionV3, keras, sklearn, t-sne, truncatedSVD, визуализация данных, машинное обучение
Визуализация портфолио (на данном рисунке, чем краснее область, тем больше фото в этой области, имеющих нулевое количество скачиваний)
Коротко о задаче: есть фото-портфолио с большим количеством фото, хотим узнать список популярных и не популярных тем.
Читать полностью »
Решение задачи «Оценка производительности» mlbootcamp.ru
2016-07-18 в 15:54, admin, рубрики: python, sklearn, машинное обучение, регрессия, соревнованиеОсталось менее трех дней до окончания конкурса «Оценка производительности». Возможно, данная статья кому-то поможет улучшить свое решение. Суть задачи — предсказать время умножения двух матриц на разных вычислительных системах. В качестве оценки качества предсказания берется наименьшая средняя относительная ошибка MAPE.
На текущий момент первое место — 4.68%. Ниже хочу описать свой путь к 6.69% (а это уже 70+ место).
Читать полностью »
Как работает метод главных компонент (PCA) на простом примере
2016-06-27 в 13:06, admin, рубрики: data mining, PCA, python, sklearn, Алгоритмы, главные компоненты, математика на пальцах, машинное обучение, эконометрика, метки: pca
В этой статье я бы хотел рассказать о том, как именно работает метод анализа главных компонент (PCA – principal component analysis) с точки зрения интуиции, стоящей за ее математическим аппаратом. Максимально просто, но подробно.
Читать полностью »
Распознавание DGA доменов. А что если нейронные сети?
2016-04-29 в 6:03, admin, рубрики: botnets, DGA, information security, lasagne, LSTM, machine learning, Malware, natural language processing, neural networks, sklearn, theano, Блог компании «Digital Security», информационная безопасность, машинное обучение 
Всем привет!
Сегодня мы поговорим про распознавание доменов, сгенерированных при помощи алгоритмов генерации доменных имен. Посмотрим на существующие методы, а также предложим свой, на основе рекуррентных нейронных сетей. Интересно? Добро пожаловать под кат.
Kaggle и Titanic — еще одно решение задачи с помощью Python
2015-12-28 в 16:16, admin, рубрики: kaggle, matplotlib, ml, pandas, python, sklearn, titanic, xdboost, машинное обучение, Программирование, Спортивное программированиеХочу поделиться опытом работы с задачей известного конкурса по машинному обучению от Kaggle. Этот конкурс позиционируется как конкурс для начинающих, а у меня как раз не было почти никакого практического опыта в этой области. Я немного знал теорию, но с реальными данными дела почти не имел и с питоном плотно не работал. В итоге, потратив пару предновогодних вечеров, набрал 0.80383 (первая четверть рейтинга).

В общем эта статья для еще начинающих от уже начавшего.


