Обзор наиболее интересных материалов по анализу данных и машинному обучению №6 (21 — 28 июля 2014)
В очередном выпуске обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения некоторое количество статей посвящено практическому применению различных видов регрессии. Есть интересная серия статей о применении машинного обучения в трейдинге. Как обычно много материалов посвящено алгоритмам машинного обучения (в том числе нейронным сетям). Есть несколько любопытных видеолекций, а также много статей про практическое применение языка R при анализе данных и машинном обучении.
Материалы по анализу данных и машинному обучению
- 16 направлений аналитики в сравнении с Data Science [1] [EN]
Интересное сравнение относительно новой дисциплины Data Science с различными направлениями аналитики (data mining, machine leraning, statistics и др.)
- Нелинейная регрессия в R [2] [EN]
4 вида нелинейной регрессии с примерами на языке программирования R.
- Визуализация логистической регрессии с помощью Shiny [3] [EN]
Статья о создании интерактивный графиков для визуализации логистической регрессии с помощью пакета Shiny для языка программирования R.
- Все что вы хотели знать о машинном обучении, но боялись спросить (часть 1) [4] [EN]
Интересная статья, посвященная основам машинного обучения.
- Все что вы хотели знать о машинном обучении, но боялись спросить (часть 2) [5] [EN]
Продолжение серии статей, посвященных основам машинного обучения.
- Разница между library() и require() в языке R [6] [EN]
Небольшая статья о том, в каких случаях использовать library() и require() в языке R. Часто возникает путаница в данном вопросе.
- Применение машинного обучения для трейдинга (часть 1) [7] [EN]
Введение в тему использования машинного обучения для трейдинга.
- Применение машинного обучения для трейдинга (часть 2) [8] [EN]
Продолжение темы использования машинного обучения для трейдинга.
- Применение линейной регрессии при помощи R [9] [EN]
Статья о применении 4 видов линейной регрессии при помощи языка программирования R.
- Стэнфордский университет опубликовал большую коллекцию наборов данных [10] [RU]
Стэнфордский университет опубликовал большую коллекцию графовых наборов данных (Stanford Large Network Dataset Collection), то есть данных которые организованы в виде графов или сетей. Похоже, что это отличный набор данных, на котором можно будет экспериментировать и оттачивать свои навыки в анализе данных и машинном обучении.
- Еженедельный дайджест от DataScienceCentral [11] [EN]
Регулярный еженедельный дайджест статей по анализу данных от портала DataScienceCentral.
- Введение в сверточные нейронные сети (часть 1) [12] [EN]
Вводная статья про популярные сейчас сверточные нейронные сети, написанная достаточно простым языком.
- Введение в сверточные нейронные сети (часть 2) [13] [EN]
Продолжение дискуссии про сверточные нейронные сети. Во второй части автор уделяет большое внимание теории сверточных нейронных сетей.
- Наборы данных для машинного обучения [14] [RU]
Список ресурсов на которых можно найти большое количество интересных наборов данных (data sets) для машинного обучения и анализа данных.
- Использование цепей Маркова на практике [15] [EN]
Пример возможного применения цепей Маркова в практических задачах на примере банковского кредитования и оценки рисков.
- Penalized regression при помощи R [16] [EN]
Статья о применении Penalized Regression при помощи языка программирования R.
- Поиск дубликатов с применением машинного обучения [17] [EN]
Интересная статья, написанная достаточно простым языком, о типовой задаче поиска дубликатов в записях, с применением машинного обучения. В статья приведены примеры кода на языке Python.
- Упрощение R кода с помощью библиотеки magrittr и pipelines [18] [EN]
Упрщение кода в языке программирования R, с использованием библиотеки magrittr, которая позволяет применять подход pipeline к коду.
- MLlib — библиотека машинного обучения для Apache Spark [19] [EN]
Небольшая статья про библиотеку машинного обучения MLlib для набирающего популярность Apache Spark.
- Видеолекции Quoc Le по Deep Learning [20] [EN]
Quoc Le из команды Google Brain представляет видеолекции по технике машинного обучения Deep Learning, которые были рассказаны на летней школе машинного обучения Machine Learning Summer School (MLSS ’14) в Питтсбурге.
- 10 видов линейной регрессии [21] [EN]
Небольшая статья про вопрос правильного выбора различных видов линейной регрессии при машинном обучении.
- Применение машинного обучения для соревнований на Kaggle [22] [EN]
Для улучшения своих навыков машинного обучения часто важно изучать готовые примеры решений от специалистов по анализу данных. В данной статье рассматривается пример решения известной задачи с сайта Kaggle — гибель пассажиров Титаника. Автор решения использует язык программирования R в своем примере.
- Введение в машинное обучение [23] [EN]
Ссылка на второе издание отличной книги по машинному обучению.
- Правда о стартапах в области Data Science [24] [EN]
Интересные рассуждения о проблемах, с которыми можно столкнуться при создании стартапа в области Data Science.
- Как улучшить свои навыки машинного обучения [25] [EN]
Хороший краткий список книг по машинному обучению, которые помогут вам поднять свой уровень в данном вопросе.
- Эксперимент в Яндексе. Как идентифицировать взломщика с помощью машинного обучения [26] [RU]
Статья о применении машинного обучения в Яндексе для попытки классификации злоумышленника и обычного пользователя по поведенческим признакам. Подробности работы данных алгоритмов, к сожалению, особенно не раскрываются.
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №5 (7 — 21 июля 2014) [27]
Автор: moat
Источник [28]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/data-mining/66073
Ссылки в тексте:
[1] 16 направлений аналитики в сравнении с Data Science: http://www.datasciencecentral.com/profiles/blogs/17-analytic-disciplines-compared
[2] Нелинейная регрессия в R: http://machinelearningmastery.com/non-linear-regression-in-r/
[3] Визуализация логистической регрессии с помощью Shiny: http://www.statsblogs.com/2014/07/24/interactive-visualization-of-non-linear-logistic-regression-decision-boundaries-with-shiny/
[4] Все что вы хотели знать о машинном обучении, но боялись спросить (часть 1): http://blog.bigml.com/2013/02/15/everything-you-wanted-to-know-about-machine-learning-but-were-too-afraid-to-ask-part-one/
[5] Все что вы хотели знать о машинном обучении, но боялись спросить (часть 2): http://blog.bigml.com/2013/02/21/everything-you-wanted-to-know-about-machine-learning-but-were-too-afraid-to-ask-part-two/
[6] Разница между library() и require() в языке R: http://www.statsblogs.com/2014/07/26/library-vs-require-in-r/
[7] Применение машинного обучения для трейдинга (часть 1): http://inovancetech.com/blogML.html
[8] Применение машинного обучения для трейдинга (часть 2): http://inovancetech.com/blogML2.html
[9] Применение линейной регрессии при помощи R: http://machinelearningmastery.com/linear-regression-in-r/
[10] Стэнфордский университет опубликовал большую коллекцию наборов данных: http://igorsubbotin.blogspot.ru/2014/07/stanford-network-dataset-collection.html
[11] Еженедельный дайджест от DataScienceCentral: http://www.datasciencecentral.com/profiles/blogs/weekly-digest-july-28
[12] Введение в сверточные нейронные сети (часть 1): http://colah.github.io/posts/2014-07-Conv-Nets-Modular/
[13] Введение в сверточные нейронные сети (часть 2): http://colah.github.io/posts/2014-07-Understanding-Convolutions/
[14] Наборы данных для машинного обучения: http://igorsubbotin.blogspot.ru/2014/07/ml-datasets.html
[15] Использование цепей Маркова на практике: http://www.analyticsvidhya.com/blog/2014/07/solve-business-case-simple-markov-chain/
[16] Penalized regression при помощи R: http://machinelearningmastery.com/penalized-regression-in-r/
[17] Поиск дубликатов с применением машинного обучения: http://blog.yhathq.com/posts/fuzzy-matching-with-yhat.html
[18] Упрощение R кода с помощью библиотеки magrittr и pipelines: http://www.r-bloggers.com/magrittr-simplifying-r-code-with-pipes/
[19] MLlib — библиотека машинного обучения для Apache Spark: http://www.kdnuggets.com/2014/07/mllib-apache-spark-component-machine-learning.html
[20] Видеолекции Quoc Le по Deep Learning: http://igorsubbotin.blogspot.ru/2014/07/quoc-le-on-deep-learning.html
[21] 10 видов линейной регрессии: http://www.datasciencecentral.com/profiles/blogs/10-types-of-regressions-which-one-to-use
[22] Применение машинного обучения для соревнований на Kaggle: http://machinelearningmastery.com/applied-machine-learning-lessons-from-a-case-study-of-passenger-survival-prediction/
[23] Введение в машинное обучение: http://www.realtechsupport.org/UB/MRIII/papers/MachineLearning/Alppaydin_MachineLearning_2010.pdf
[24] Правда о стартапах в области Data Science: http://www.dynamicyield.com/2014/07/startup-data-science/
[25] Как улучшить свои навыки машинного обучения: http://metacademy.org/roadmaps/cjrd/level-up-your-ml
[26] Эксперимент в Яндексе. Как идентифицировать взломщика с помощью машинного обучения: http://habrahabr.ru/company/yandex/blog/230583/
[27] Обзор наиболее интересных материалов по анализу данных и машинному обучению №5 (7 — 21 июля 2014): http://habrahabr.ru/post/230561/
[28] Источник: http://habrahabr.ru/post/231323/
Нажмите здесь для печати.