Обзор наиболее интересных материалов по анализу данных и машинному обучению №8 (4 — 11 августа 2014)
Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения. В данном выпуске достаточно много практических примеров кода на языках программирования R и Python. Также в данном обзоре есть достаточно много статей, которые будут интересны новичкам. Несколько статей посвящено онлайн-курсам. Как обычно много материалов посвящено алгоритмам машинного обучения
Материалы по анализу данных и машинному обучению
- Введение в машинное обучение [1]
Отличная статья, описывающая базовые понятия машинного обучения.
- Линейная классификация в R [2]
Три вида линейной классификации с примерами на языке программирования R.
- Рекомендации в Spotify с использованием Deep Learning [3]
Автор рассказывает как работает система рекомендаций в популярном сервисе Spotify.
- Новый онлайн-курс по искусственному интеллекту [4]
Достаточно интересный по описанию новый онлайн-курс по искусственному интеллекту от LIRIS под названием IDEAL MOOC стартует в октябре 2014 года.
- Один год участия в соревнованиях Kaggle [5]
В данной статье автор рассказывает об опыте своего участия в различных соревнованиях по машинному обучению на Kaggle за один год. До этого большого опыта по теме машинного обучения у автора не было.
- Учась у лучших [6]
Крайне полезная публикация, которая содержит советы от лучших участников Kaggle о том, как достичь успеха в соревнованиях по машинному обучению.
- Вставка значений NA в произвольные места в вектор [7]
Пример полезного кода на языке программирования R. В данном примере кода решается достаточно часто возникающая задача, когда для различных целей в вектор значений необходимо вставить несколько NA-значений в произвольные места.
- Новый канал на YouTube, посвященный анализу данных [8]
Автор блога Oz Analytics в дополнение к своему блогу открыл новый канал на YouTube, в котором будет освещать различные темы, связанные с аналитикой, бизнес-аналитикой и Data Science.
- Визуализация цепей Маркова [9]
Великолепная визуализация работы алгоритма цепей Маркова.
- Визуализация географических данных с помощью R [10]
Интересная статья о том, как визуализировать географические данные с помощью языка программирования R и популярной библиотеки визуализации ggplot2.
- Цепочки операций: интересная возможность в библиотеке dplyr [11]
Интересный пример кода использования цепочек операций при использовании популярной библиотеки dplyr для языка программирования R.
- Сертификаты и сертификация в области анализе данных [12]
Большой интересный список возможных вариантов курсов, по окончании которых можно получить сертификат в области анализа данных. Здесь есть варианты онлайн-курсов, различных вариантов сертификации и очного обучения.
- Удачное применение предсказательной модели [13]
Полезный пост от автора MachineLearningMachinery о том, как можно найти интересные и удачные применения предсказательной модели.
- Какие навыки важны для Data Scientist [14]
Очень интересная статья о том, какие навыки важны для начинающего специалиста по анализу данных, а какие не так важны, как может показаться на первый взгляд, для вашего портфолио.
- NoSQL или SQL: как сделать правильный выбор? [15]
За последние годы количество различных вариантов баз данных, которые можно выбрать для своего приложения, значительно выросло. Из-за этого у разработчиков приложений появилось достаточно много вопросов, данный вебкаст постарается ответить на самые важные из них.
- Планы Microsoft в области машинного обучения [16]
Статья расскажет о планах Microsoft на будущее в области машинного обучения. Microsoft запускает свою облачную платформу Azure ML, чему уделено много внимания в данной публикации.
- Как стать Data Scientist: MS Program, Bootcamp или MOOC [17]
Интересные рассуждения о том, какие пути существуют, для того чтобы стать Data Scientist и какие у каждого пути есть особенности.
- Решение для соревнования по машинному обучению «Higgs Boson» на Kaggle [18]
Вариант решения задачи соревнования по машинному обучению «Higgs Boson» на Kaggle. Автор использует Python, Pandas и Scikit Learn для своего решения.
- Сравнение прогнозируемой продолжительности жизни женщин и мужчин [19]
Хороший пример обработки данных на языке программирования R.
- Heiko Strathmann рассказывает о библиотеке для машинного обучения Shogun [20]
Heiko Strathmann в данной небольшой видеолекции рассказывает о библиотеке для машинного обучения Shogun, одним из автором которой он является. Основное направление данной библиотеки — это использование метода опорных векторов для решения проблем регрессионного анализа и классификации.
- Обработка данных по авиакатастрофам [21]
Хороший пример обработки данных на языке программирования R.
- Параметризированные SQL-запросы [22]
Хорошая статья про то как правильно писать и использовать параметризированные SQL-запросы, в том числе как их использовать в языке программирования R.
- Дайджест лучших ресурсов от DataScienceCentral (4 августа) [23]
Неплохой список свежих интересных статей и ресурсов от DataScienceCentral.
- Семь столпов статистической мудрости [24]
Небольшая статья про 7 вещей, которые крайне важны в статистической науке.
- Плохие привычки при написании SQL-кода [25]
Нелохая статья с небольшим списком ошибок, которые часто допускаются при написании SQL-кода.
- Пример использования функции glm() в R [26]
Простой пример использования функции glm() в языке программирования R из библиотеки stats.
- Подготовка данных для предсказательного моделирования [27]
Интересная статья от автора MachineLearningMachinery о возможностях улучшения предсказательной модели за счет лучшей предобработки данных.
- 11 необходимых вещей для Data Science [28]
Отличная шпаргалка из 11 пунктов от портала DataScienceCentral, которая будет полезна любому кто интересуется темой Data Science.
- Интересные идеи из биостатистики для A/B-тестирования [29]
Данный материал может привлечь внимание тех, кто интересуется темой A/B-тестирования. В этой краткой статье предлагаются некоторые идеи из биостатистики, которые моугт быть применимы для A/B-тестирования.
- Машинное обучение и компьютерное зрение [30]
Очередная статья от Microsoft Technet Machine Learning Blog, посвященная использованию машинного обучения при решении вопросов распознавания образов и применения технологий компьютерного зрения. Статья небольшая и написана простым языком, без погружения в детали данной достаточно сложной темы.
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №7 (28 июля — 4 августа 2014) [31]
Автор: moat
Источник [32]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/data-mining/67171
Ссылки в тексте:
[1] Введение в машинное обучение: http://www.toptal.com/machine-learning/machine-learning-theory-an-introductory-primer
[2] Линейная классификация в R: http://machinelearningmastery.com/linear-classification-in-r/
[3] Рекомендации в Spotify с использованием Deep Learning: http://benanne.github.io/2014/08/05/spotify-cnns.html
[4] Новый онлайн-курс по искусственному интеллекту: http://igorsubbotin.blogspot.ru/2014/08/ideal-mooc-ai.html
[5] Один год участия в соревнованиях Kaggle: http://mlwave.com/reflecting-back-on-one-year-of-kaggle-contests/
[6] Учась у лучших: http://blog.kaggle.com/2014/08/01/learning-from-the-best/
[7] Вставка значений NA в произвольные места в вектор: http://igorsubbotin.blogspot.ru/2014/08/insert-random-nas-in-vector-in-r.html
[8] Новый канал на YouTube, посвященный анализу данных: http://www.datasciencecentral.com/profiles/blogs/a-new-youtube-blog
[9] Визуализация цепей Маркова: http://setosa.io/blog/2014/07/26/markov-chains/
[10] Визуализация географических данных с помощью R: http://tophcito.blogspot.ru/2014/08/visualizing-geo-referenced-data-with-r.html
[11] Цепочки операций: интересная возможность в библиотеке dplyr: http://igorsubbotin.blogspot.ru/2014/08/chain-operations-in-dlyr.html
[12] Сертификаты и сертификация в области анализе данных: http://www.kdnuggets.com/2014/08/certificates-analytics-data-mining-data-science.html
[13] Удачное применение предсказательной модели: http://machinelearningmastery.com/clever-application-of-a-predictive-model/
[14] Какие навыки важны для Data Scientist: http://www.datasciencecentral.com/profiles/blogs/your-data-science-portfolio-math-skills-don-t-matter
[15] NoSQL или SQL: как сделать правильный выбор? : http://igorsubbotin.blogspot.ru/2014/08/nosql-vs-sql-how-to-choose.html
[16] Планы Microsoft в области машинного обучения: http://www.techradar.com/news/internet/cloud-services/how-microsoft-is-building-a-machine-learning-future-1258856
[17] Как стать Data Scientist: MS Program, Bootcamp или MOOC: http://www.kdnuggets.com/2014/08/becoming-data-scientist-ms-program-bootcamp-mooc.html
[18] Решение для соревнования по машинному обучению «Higgs Boson» на Kaggle: http://nbviewer.ipython.org/gist/Noire7/38924712e84545d8d641
[19] Сравнение прогнозируемой продолжительности жизни женщин и мужчин: http://www.statsblogs.com/2014/08/03/men-set-to-live-as-long-as-women-by-2010/
[20] Heiko Strathmann рассказывает о библиотеке для машинного обучения Shogun: http://igorsubbotin.blogspot.ru/2014/08/heiko-strathmann-on-ml-shogun.html
[21] Обработка данных по авиакатастрофам: http://www.statsblogs.com/2014/08/02/the-odds-of-a-cluster-of-airplane-accidents/
[22] Параметризированные SQL-запросы: http://www.r-bloggers.com/parameterized-sql-queries/
[23] Дайджест лучших ресурсов от DataScienceCentral (4 августа): http://www.datasciencecentral.com/profiles/blogs/our-weekly-selection-of-great-resources-found-on-the-web-august-4
[24] Семь столпов статистической мудрости: http://www.statsblogs.com/2014/08/05/the-7-pillars-of-statistical-wisdom/
[25] Плохие привычки при написании SQL-кода: http://www.statsblogs.com/2014/08/05/bad-sql-habits/
[26] Пример использования функции glm() в R: http://igorsubbotin.blogspot.ru/2014/08/glm-example-in-r.html
[27] Подготовка данных для предсказательного моделирования: http://machinelearningmastery.com/improve-model-accuracy-with-data-pre-processing/
[28] 11 необходимых вещей для Data Science: http://www.datasciencecentral.com/profiles/blogs/data-science-cheat-sheet
[29] Интересные идеи из биостатистики для A/B-тестирования: http://www.statsblogs.com/2014/08/06/if-you-like-ab-testing-here-are-some-other-biostatistics-ideas-you-may-like/
[30] Машинное обучение и компьютерное зрение: http://blogs.technet.com/b/machinelearning/archive/2014/08/06/machine-learning-meet-computer-vision.aspx
[31] Обзор наиболее интересных материалов по анализу данных и машинному обучению №7 (28 июля — 4 августа 2014): http://habrahabr.ru/post/232039/
[32] Источник: http://habrahabr.ru/post/232879/
Нажмите здесь для печати.