Обзор наиболее интересных материалов по анализу данных и машинному обучению №10 (18 — 25 августа 2014)
Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения. В данном выпуске достаточно много интересных материалов для новичков. Присутствует пара интересных видеоматериалов. Есть материалы по теме Data Engineering. Как обычно некоторые количество статей посвящено примерам кода, связанного с анализом данных и машинным обучением. И уже традиционно несколько статей посвящено теме участия в соревнованиях по машинному обучению.
Материалы по анализу данных и машинному обучению
- Книга по Deep Learning от MIT [1]
Книга от MIT по очень популярному сейчас направлению машинного обучения Deep Learning. Книга пока не является законченной, но многие главы уже доступны читателям.
- Обработка данных с помощью R [2]
Небольшая книга, которая может быть полезна всем кто работает с данным, используя язык программирования R, посвященная обработке и очистке данных в фазе препроцессинга, что как известно занимает достаточно много времени и отнимает много усилий у специалистов по анализу данных.
- Трудный путь изучения машинного обучения — история о пони [3]
Nathan Taggart (Product Manager в New Relic) в данном видео рассказывает свою историю освоения машинного обучения и о том каких ошибок следует избегать в этой непростой задаче. Видео рассчитано на новичков в теме анализа данных и машинного обучения.
- Что такое R [4]
Небольшой емкий обзор языка программирования R с описанием преимуществ и недостатков.
- Что компаниям нужно знать о Big Data [5]
Статья, рассуждающая о том, что многим компаниям возможно стоит поменять подход к работе со своими данными и больше ориентироваться на современнные тенденции Data Science.
- Руководство по анализу неструктурированных текстовых данных [6]
Первая часть из серии статей от популярного портала Analytics Vidhya, посвященная интересной теме анализа текста. В данной статье описываются базовые проблемы и вопросы, в будущих статьях будут описаны детали реализации решения данных вопросов.
- Анализ данных с Mario Garzia из Microsoft [7]
Специалист по анализу данных Mario Garzia из Microsoft в своей статье в блоге Microsoft Technet Machine Learning Blog приводит свои интересные рассуждения о текущем состоянии дел в области Data Science.
- 5 преимуществ участия в соревнованиях по машинному обучению [8]
Очередная интересная статья от автора блога MachineLearningMastery. На этот раз речь пойдет о плюсах участия в соревнованиях по машинному обучению на Kaggle.
- Визуализация временных рядов с помощью библиотеки googleVis [9]
Не так давно на вышла новость о релизе googleVis версии 0.5.5. В данном коротком посте приводится очень простой пример кода для визуализации временных рядов с помощью библиотеки googleVis для языка программирования R.
- Microsoft Azure DocumentDB [10]
Небольшая статья о новой NoSQL базе данных от компании Microsoft под названием Azure DocumentDB.
- Применение машинного обучения для трейдинга (часть 1) [11]
Введение в тему использования машинного обучения для трейдинга. Данная серия статей уже была представлена в обзорах по анализу данных и машинному обучению. В данном случае это перевод первой части на русский язык.
- Улучшение производительности запросов в Apache Hive при помощи партиционирования [12]
Небольшая статья с блога Cloudera о том, как можно улучшить производительность запросов в Apache Hive при помощи использования партиционирования.
- Анонсирован новый онлайн-курс на Coursera от Stanford University — Mining Massive Datasets [13]
29 сентября 2014 года на Coursera стартует очень любопытный онлайн-курс от Stanford University — Mining Massive Datasets.
- Быстрый HDF5 с Pandas [14]
Пример работы с форматом хранения информации HDF5 из фреймворка по анализу данных Pandas для языка программирования Python.
- Интересные ресурсы по Deep Learning [15]
Список ресурсов по популярной технике машинного обучения Deep Learning, составленный известным порталом KDnuggets.
- Это не NoSQL против RDBMS, это ACID+Foreign Keys против Eventual Consistency [16]
Немного любопытных рассуждений о NoSQL и RDBMS хранилищах данных.
- Пример решения задачи на Kaggle [17]
Пример возможного решения популярного на Kaggle соревнования по машинному обучению «Predict Bike Sharing Demand» с использованием техники Gradient Boosted Trees. В примере используется инструмент машинного обучения GraphLab Create.
- Визуализация работы логистической регрессии [18]
В машинном обучении часто применяется логистическая регрессия. В данном коротком посте представлена визуализация работы логистической регрессии в виде анимированного изображения.
- Машинное обучение и компьютерное зрение (часть 2) [19]Вторая часть серии статей от Microsoft Technet Machine Learning Blog, посвященная использованию машинного обучения при решении вопросов распознавания образов и применения технологий компьютерного зрения. Статья небольшая и написана простым языком, без погружения в детали данной достаточно сложной темы.
- Экосистема Hadoop [20]
Неболшая полезная статья, которая дает краткое описание основных элементов экосистемы Hadoop.
- Что такое Big Data? [21]
Интересная небольшая статья, в которой автор рассуждает о том, что же такое Big Data и делается попытка дать наиболее простое описание данного термина.
- Использование expression в R [22]
Интересная статья про использование функции expression() в языке программирования R.
- Блок-схема машинного обучения с учителем (Supervised learning) [23]
Многие знакомы с таким способом машинного обучения, как обучение с учителем (Supervised learning). В данном коротком посте в виде блок-схемы представлена хорошая визуализация последовательности типовых действий при обучении с учителем.
- 21 отличный график [24]
Нескольких отличных примеров визуализации данных с помощью различных видов графиков и диаграмм от портала DataScienceCentral.
- Как удачно выступать в соревнованиях на Kaggle [25]
Еще одна полезная статья о том, как успешно выступать в соревнованиях по машинному обучению на Kaggle.
- Анонс Capstone project в специализации по анализу данных от Coursera [26]
Небольшая статья, анонсирующая Capstone project, который относится к финальной фазе Data Science Specialization от Johns Hopkins University. К проекту можно подключиться, если успешно окончены все 9 курсов специализации.
- Sybil: система масштабирования машинного обучения в Google [27]
В данном докладе Tushar Chandra рассказывает о судьбе Sybil в Google. Sybil — важный исследовательский проект в Google, который реализует различные алгоритмы машинного обучения, позволяя их масштабировать. Данная разработка широко используется в Google.
- Четыре основных языка для анализа данных [28]
Результаты голосования, проведенного популярным порталом KDnuggets, о самых попупулярных языках, которые используются для анализа данных.
- Математика для машинного обучения [29]
Статья посвящена вопросу необходимых математических навыков необходимых для освоения базовых знаний по машинному обучению. Автор указывает, что статья является черновой версией и что в ней со временем будет появляться дополнительная информация.
- Куда устанавливаются библиотеки в RStudio [30]
Небольшая статья, посвященная любопытному вопросу о том, куда RStudio устанавливает библиотеки.
- 44 статьи по анализу данных [31]
Интересная подборка статей и ресурсов от лучших специалистов по анализу данных, собранная порталом DataScienceCentral
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №9 (11 — 18 августа 2014) [32]
Автор: moat
Источник [33]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/data-mining/68225
Ссылки в тексте:
[1] Книга по Deep Learning от MIT: http://www.iro.umontreal.ca/~bengioy/DLbook/#
[2] Обработка данных с помощью R: http://cran.r-project.org/doc/contrib/de_Jonge+van_der_Loo-Introduction_to_data_cleaning_with_R.pdf
[3] Трудный путь изучения машинного обучения — история о пони: http://igorsubbotin.blogspot.ru/2014/08/machine-learning-the-hard-way.html
[4] Что такое R: http://machinelearningmastery.com/what-is-r/
[5] Что компаниям нужно знать о Big Data: http://smartdatacollective.com/andyambrosius/227786/data-science-what-companies-need-know
[6] Руководство по анализу неструктурированных текстовых данных: http://www.analyticsvidhya.com/blog/2014/08/step-step-guide-extract-inforation-free-text-unstructured-data/
[7] Анализ данных с Mario Garzia из Microsoft: http://blogs.technet.com/b/machinelearning/archive/2014/08/19/exploration-data-science-with-mario-garzia.aspx
[8] 5 преимуществ участия в соревнованиях по машинному обучению: http://machinelearningmastery.com/5-benefits-of-competitive-machine-learning/
[9] Визуализация временных рядов с помощью библиотеки googleVis: http://igorsubbotin.blogspot.ru/2014/08/googlevis-time-series.html
[10] Microsoft Azure DocumentDB: http://gigaom.com/2014/08/21/microsoft-unveils-documentdb-a-nosql-database-built-for-azure/
[11] Применение машинного обучения для трейдинга (часть 1): http://habrahabr.ru/post/234303/
[12] Улучшение производительности запросов в Apache Hive при помощи партиционирования: http://blog.cloudera.com/blog/2014/08/improving-query-performance-using-partitioning-in-apache-hive/
[13] Анонсирован новый онлайн-курс на Coursera от Stanford University — Mining Massive Datasets: http://igorsubbotin.blogspot.ru/2014/08/coursera-stanford-university-mining.html
[14] Быстрый HDF5 с Pandas: http://python.dzone.com/articles/quick-hdf5-pandas
[15] Интересные ресурсы по Deep Learning: http://www.kdnuggets.com/2014/08/deep-learning-important-resources-learning-understanding.html
[16] Это не NoSQL против RDBMS, это ACID+Foreign Keys против Eventual Consistency: http://java.dzone.com/articles/its-not-nosql-versus-rdbms-its
[17] Пример решения задачи на Kaggle: http://blog.graphlab.com/using-gradient-boosted-trees-to-predict-bike-sharing-demand
[18] Визуализация работы логистической регрессии: http://igorsubbotin.blogspot.ru/2014/08/logistic-regression-animated.html
[19] Машинное обучение и компьютерное зрение (часть 2): http://blogs.technet.com/b/machinelearning/archive/2014/08/20/machine-learning-meet-computer-vision-part-2.aspx
[20] Экосистема Hadoop: http://java.dzone.com/articles/hadoop-101-explanation-hadoop
[21] Что такое Big Data?: http://www.bigdata-startups.com/simplest-explanation-of-big-data/
[22] Использование expression в R: http://oddhypothesis.blogspot.ru/2014/08/optimizing-with-r-expressions.html
[23] Блок-схема машинного обучения с учителем (Supervised learning): http://igorsubbotin.blogspot.ru/2014/08/supervised-learning-flowchart.html
[24] 21 отличный график: http://www.datasciencecentral.com/profiles/blogs/12-great-charts
[25] Как удачно выступать в соревнованиях на Kaggle: http://machinelearningmastery.com/master-kaggle-by-competing-consistently/
[26] Анонс Capstone project в специализации по анализу данных от Coursera: http://www.statsblogs.com/2014/08/19/swiftkey-and-johns-hopkins-partner-for-data-science-specialization-capstone/
[27] Sybil: система масштабирования машинного обучения в Google: http://igorsubbotin.blogspot.ru/2014/08/sibyl-system-large-scale-machine-learning-google.html
[28] Четыре основных языка для анализа данных: http://www.kdnuggets.com/2014/08/four-main-languages-analytics-data-mining-data-science.html
[29] Математика для машинного обучения: http://fastml.com/math-for-machine-learning/
[30] Куда устанавливаются библиотеки в RStudio: http://java.dzone.com/articles/where-does-r-studio-install
[31] 44 статьи по анализу данных: http://www.datasciencecentral.com/profiles/blogs/selection-of-articles-and-resources-from-leading-and-influential
[32] Обзор наиболее интересных материалов по анализу данных и машинному обучению №9 (11 — 18 августа 2014): http://habrahabr.ru/post/233681/
[33] Источник: http://habrahabr.ru/post/234459/
Нажмите здесь для печати.