- PVSM.RU - https://www.pvsm.ru -

Обзор наиболее интересных материалов по анализу данных и машинному обучению №14 (15 — 21 сентября 2014)

Обзор наиболее интересных материалов по анализу данных и машинному обучению №14 (15 — 21 сентября 2014)
Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения. Хочу также обратить внимание, что я выпустил первый дайджест по теме высокой производительности и Data Enginering: Обзор наиболее интересных материалов по высокой производительности (15 — 21 сентября 2014) [1]. Думаю, что кого-то он тоже может заинтересовать.

Общее

  • EN KDD 2104: Google KV и Topic Modeling [2]
    Авторы блога компании URX делятся своими впечатлениями от недавно прошедшей в Нью-Йорке конференции KDD 2014, а именно рассказывают о системе под названием Google Knowledge Vault, которая активно используется в Google для улучшения качества поиска и о другой интересной теме тематического моделирования (Topic Modeling).
  • EN 10 лучших презентаций с SlideShare по Data Science и Big Data [3]
    Статья со списком из 10 презентаций с сайта SlideShare по темам Data Science и Big Data с наибольшим количеством просмотров.
  • EN Библиотека cuDNN для Deep Learning [4]
    Анонс библиотеки от NVIDIA для работы с Deep Learning алгоритмами, которая использует GPU для вычислений, данный подход позволяет увеличить эффективность работы алгортимов машинного обучения.
  • EN Статистика против эвристики [5]
    Интересные размышления автора статьи о о том, когда резонно применять эфристические подходы.
  • RU R В Лондоне прошла конференция «Эффективные применения языка R» [6]
    Автор блога «R: Анализ и визуализация данных» рассказывает о конференции «Effective Applications of the R Language (EARL)», посвященной применению языка программирования R.
  • EN Введение в Predictive Analytics (часть 2) [7]
    Вторая часть новой серии статей от портала insideBIGDATA по теме Predictive Analytics. В данном случае речь пойдет об областях применение Predictive Analytics в корпоративной сфере бизнеса.
  • EN Введение в Predictive Analytics (часть 3) [8]
    Третья часть новой серии статей от портала insideBIGDATA по теме Predictive Analytics. В третьей части описываются основные подходы, которые используются при обучении с учителем (Supervised learning), такие как регрессия, классификация и кластеризация.
  • EN Популярные вопросы на собеседовании на должность аналитика [9]
    Небольшая статья, которая содержит несколько популярных вопросов, которые задают на собеседовании на должность аналитика.
  • EN Vincent Granville о Big Data [10]
    Vincent Granville — автор портала DataScienceCentral, приводит свои размышления и дает определение понятия Big Data.
  • EN Как добиться успеха в Big Data [11]
    Небольшая статья с инфографикой, которая расскажет об основных факторах, которые влияют на успешность компании в области Big Data.
  • EN Как стать Data Scientist [12]
    Несколько советов о том, как стать Data Scientist и быть успешным в области анализа данных.
  • EN R Поддержка R в Azure ML [13]
    Небольшая статья с блога Microsoft Technet Machine Learning о возможности использования R в облачном решении Azure ML.
  • EN 5 ключевых идей для понимания Big Data [14]
    Интересный пост от портала Smart Data Collective, который рассказывает 5 ключевых моментах, которые помогут извелкать пользу из данных наиболее эффективно.
  • RU HABR Применение машинного обучения для трейдинга (часть 2) [15]
    Продолжение темы использования машинного обучения для трейдинга.
  • EN 10 экспертов в машинном обучении [16]
    Список из 10 известных людей в области анализа данных и машинного обучения.
  • EN Data Mining против(?) Data Science [17]
    Еще немного интересных размышлений по поводу терминологии.
  • RU HABR Введение в машинное обучение и быстрый старт с Azure ML [18]
    Интересная статья, описывающая возиожности нового облачного продукта для машинного обучения от Microsoft под названием Azure ML.

Соревнования по машинному обучению

  • EN Описание победной методологии «Higgs Boson Machine Learning Challenge» [19]
    Интересной рассказ от победителя соревнования по машинному обучению «Higgs Boson Machine Learning Challenge» на Kaggle, где он описывает подход, который принес ему успех в данном соревновании.
  • RU Соревнование по расшифровке Азбуки Морзе на Kaggle in Class [20]
    В данном небольшом посте речь пойдет о новом соревновании, которое началось на Kaggle in Class под названием Morse Learning Machine — v1. Предполагается, что участники Morse Learning Machine построят систему, которая будет расшифровывать сообщения закодированные Азбукой Морзе, содержащиеся в аудиофайлах.
  • EN Хакатон по машинному обучению от Microsoft [21]
    Статья с блога Microsoft Technet Machine Learning, в которой рассказывается о прошедшем под эгидой Microsoft хакатоне по машинному обучению.

Онлайн-курсы и обучающие материалы

Литература

Теория и алгоритмы машинного обучения, примеры кода

  • EN R Визуализация GPS-данных [24]
    Неплохой пример кода для визуализации данных с GPS-устройства с использованием языка программирования R.
  • EN R Настройка .RProfile [25]
    Статья посвящена полезной и интересной теме настройки параметров запуска R с помощью файла конфигурации .RProfile.
  • EN R Визуализация данных с помощью R Caret [26]
    Автор блога MachineLearningMastery рассказывает о возможностях визуализации данных в популярной библиотеке по машинному обучению Caret для языка программирования R.
  • EN R Использование R Caret для Predictive Modeling [27]
    Автор блога MachineLearningMastery рассказывает про использование популярной библиотеки Caret для языка программирования R для Predictive Modeling.
  • EN R Улучшение обучающей модели с помощью R Caret [28]
    Автор блога MachineLearningMastery рассказывает про возможности улучшения обучающей модели с помощью библиотеки Caret для языка программирования R
  • EN Для новичков R Серия слайдов по теме анализа данных на R [29]
    В данном наборе слайдов Yanchang Zhao касается семи достаточно интересных тем по анализу данных и использует язык программирования R для примеров кода.
  • RU Теория R Диагностика линейных регрессионных моделей. Часть 1 [30]
    Первая часть серии статей по достаточно интересной теме диагностики линейных регрессионных моделей с блога «R: Анализ и визуализация данных». Примеры кода в статье написаны на языке программирования R.
  • EN Теория Введение в вероятностное программирование [31]
    Достаточно неплохое введение в интересную тему вероятностного программирования с примерами кода.
  • EN Анализ тональности текста в рецензиях к фильмам [32]
    Интересный пример анализа текстовой информации, а именно анализа тональности текста в рецензиях на фильмы, с использованием популярной графовой базы данных Neo4j и языка программирования Java.
  • EN Машинное обучение на живой среде [33]
    Colin Ristig рассказывает о достаточно интересном и важном вопросе, который иногда забывают — работа алгоритма машинного обучения на живой среде.
  • EN Библиография по теме Deep Learning [34]
    Большой список различных научных материалов по популярному методу машинному обучения Deep Learning, с разбиением на категории.

Видеоматериалы

  • EN Видеолекции Andrew Ng о Deep Learning [35]
    Andrew Ng из Stanford University выступил на конференции «2014 Robotics: Science and Systems Conference» с интересным докладом о Deep Learning.
  • RU Видеолекции Moscow Data Science. September 2014 Meetup [36]
    5 сентября посетил достаточно интересный meetup под названием Moscow Data Science — «September 2014 Meetup», организованный компанией Mail.ru. По ссылке можно будет посмотреть видео с данной встречи, я для удобства разметил время начала и длительность выступления каждого участника.

Data engineering

  • EN Кто и как использует Hadoop [37]
    Интересная статья о текущем состоянии дел в экосистеме Hadoop: кто и как её пользуется, а также о преспективах развития.
  • RU Ближайшие встречи по Data Science в Москве [38]
    В ближайшее время намечается сразу несколько интересных митапов, поэтому я решил опубликовать небольшой список ближайших интересных встреч по теме анализа данных и высокой производительности в Москве.
  • EN 10 способов работы с Hadoop через SQL-запросы [39]
    10 инструментов и способов для работы с Hadoop через SQL-запросы и небольшое описание каждого.
  • RU HABR Приглашаем на HadoopKitchen [40]
    Объявление о встрече, посвященной Hadoop, которая состоится в офисе Mail.ru. Я тоже собираюсь посетить данное мероприятие.
  • EN Видеолекции Введение в HBase [41]
    Статья, содержащая видео и поясняющий материал по теме HBase — хранилища данных из экосистемы Hadoop, а также рассказывающая о ситуациях, когда стоит применять данное решение и когда не стоит.
  • EN Анонс Apache Spark 1.1 [42]
    Анонс новой версии Apache Spark 1.1 и описание основных нововведений.
  • EN Потоковая обработка данных в Apache Spark 1.1 [43]
    Статья о новых возможностях потоковой обработки данных в Apache Spark 1.1 и о вариантах использования данной функциональности.
  • EN R Python Статистические вычисления в Apache Spark 1.1 [44]
    Описание расширенных возможностей статистических вычислений в Apache Spark 1.1.

Обзоры

Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №12 (1 — 8 сентября 2014) [50]

P.S. Думаю, что многим хотелось бы видеть больше материал по тематике на русском языке, так что если кто-то может посоветовать таковые, то я буду очень признателен и добавлю их в свой список ресурсов за которыми слежу.

Автор: moat

Источник [51]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/data-mining/70016

Ссылки в тексте:

[1] Обзор наиболее интересных материалов по высокой производительности (15 — 21 сентября 2014): http://habrahabr.ru/post/237581/

[2] KDD 2104: Google KV и Topic Modeling: http://blog.urx.com/urx-blog/2014/9/10/kdd-retro-google-knowledge-vault-and-topic-modeling

[3] 10 лучших презентаций с SlideShare по Data Science и Big Data: http://igorsubbotin.blogspot.ru/2014/09/top-10-presentations-about-data-science-big-data-on-slideshare.html

[4] Библиотека cuDNN для Deep Learning: https://developer.nvidia.com/cuDNN

[5] Статистика против эвристики: https://shapeofdata.wordpress.com/2014/09/17/statistics-vs-heuristics/

[6] В Лондоне прошла конференция «Эффективные применения языка R»: http://r-analytics.blogspot.ru/2014/09/r.html

[7] Введение в Predictive Analytics (часть 2): http://inside-bigdata.com/2014/09/11/business-uses-predictive-analytics/

[8] Введение в Predictive Analytics (часть 3): http://inside-bigdata.com/2014/09/18/classes-predictive-analytics/

[9] Популярные вопросы на собеседовании на должность аналитика: http://www.analyticsvidhya.com/blog/2014/09/commonly-asked-puzzles-analytics-interviews/

[10] Vincent Granville о Big Data: http://www.datasciencecentral.com/profiles/blogs/defining-big-data

[11] Как добиться успеха в Big Data: http://www.bigdata-startups.com/BigData-startup/achieve-big-success-big-data/

[12] Как стать Data Scientist: http://www.analyticsvidhya.com/blog/2014/09/how-data-scientist-business-analyst/

[13] Поддержка R в Azure ML: http://blogs.technet.com/b/machinelearning/archive/2014/09/17/extensibility-and-r-support-in-the-azure-ml-platform.aspx

[14] 5 ключевых идей для понимания Big Data: http://smartdatacollective.com/rick-delgado/235426/5-keys-successfully-using-big-data

[15] Применение машинного обучения для трейдинга (часть 2): http://habrahabr.ru/post/236769/

[16] 10 экспертов в машинном обучении: http://dataconomy.com/10-machine-learning-experts-you-need-to-know/

[17] Data Mining против(?) Data Science: http://blog.data-miners.com/2014/09/data-mining-versus-data-science.html

[18] Введение в машинное обучение и быстрый старт с Azure ML: http://habrahabr.ru/company/microsoft/blog/236823/

[19] Описание победной методологии «Higgs Boson Machine Learning Challenge»: http://www.kaggle.com/c/higgs-boson/forums/t/10344/winning-methodology-sharing/53944#post53944

[20] Соревнование по расшифровке Азбуки Морзе на Kaggle in Class: http://igorsubbotin.blogspot.ru/2014/09/kaggle-morse-learning-machine-challenge.html

[21] Хакатон по машинному обучению от Microsoft: http://blogs.technet.com/b/machinelearning/archive/2014/09/16/microsoft-machine-learning-hackathon-2014.aspx

[22] Анонсирован новый онлайн-курс «Process Mining: Data science in Action»: http://igorsubbotin.blogspot.ru/2014/09/process-mining-data-science-mooc.html

[23] Книга «Forecasting Principles and Practices» в бесплатном доступе: http://robjhyndman.com/hyndsight/

[24] Визуализация GPS-данных: http://rcrastinate.blogspot.ru/2014/09/stay-on-track-plotting-gps-tracks-with-r.html

[25] Настройка .RProfile: http://www.onthelambda.com/2014/09/17/fun-with-rprofile-and-customizing-r-startup/

[26] Визуализация данных с помощью R Caret: http://machinelearningmastery.com/data-visualization-with-the-caret-r-package/

[27] Использование R Caret для Predictive Modeling: http://machinelearningmastery.com/caret-r-package-for-applied-predictive-modeling/

[28] Улучшение обучающей модели с помощью R Caret: http://machinelearningmastery.com/tuning-machine-learning-models-using-the-caret-r-package/

[29] Серия слайдов по теме анализа данных на R: http://igorsubbotin.blogspot.ru/2014/09/rdatamining-slides-series.html

[30] Диагностика линейных регрессионных моделей. Часть 1: http://r-analytics.blogspot.ru/2014/09/1.html

[31] Введение в вероятностное программирование: http://www.pl-enthusiast.net/2014/09/08/probabilistic-programming/

[32] Анализ тональности текста в рецензиях к фильмам: http://www.kennybastani.com/2014/09/deep-learning-sentiment-analysis-for.html

[33] Машинное обучение на живой среде: http://blog.yhathq.com/posts/machine-learning-in-production-environments.html

[34] Библиография по теме Deep Learning: http://memkite.com/deep-learning-bibliography/

[35] Andrew Ng о Deep Learning: http://igorsubbotin.blogspot.ru/2014/09/andrew-ng-deep-learning.html

[36] Moscow Data Science. September 2014 Meetup: http://igorsubbotin.blogspot.ru/2014/09/moscow-data-science-september-2014.html

[37] Кто и как использует Hadoop: http://siliconangle.com/blog/2014/09/19/the-state-of-hadoop-2014-whos-using-it-and-why/

[38] Ближайшие встречи по Data Science в Москве: http://igorsubbotin.blogspot.ru/2014/09/upcoming-meetups-1.html

[39] 10 способов работы с Hadoop через SQL-запросы: http://bigdataanalyticsnews.com/10-ways-query-hadoop-sql/

[40] Приглашаем на HadoopKitchen: http://habrahabr.ru/company/mailru/blog/237131/

[41] Введение в HBase: http://datasciencereport.com/2014/09/15/edu-video-introduction-to-hbase-and-when-to-use-it/#.VBgKKxZabFI

[42] Анонс Apache Spark 1.1: http://databricks.com/blog/2014/09/11/announcing-spark-1-1.html

[43] Потоковая обработка данных в Apache Spark 1.1: http://databricks.com/blog/2014/09/16/spark-1-1-the-state-of-spark-streaming.html

[44] Статистические вычисления в Apache Spark 1.1: http://databricks.com/blog/2014/08/27/statistics-functionality-in-spark.html

[45] Еженедельный дайджест от DataScienceCentral: http://www.datasciencecentral.com/profiles/blogs/weekly-digest-september-22

[46] Дайджест лучших ресурсов от DataScienceCentral: http://www.datasciencecentral.com/profiles/blogs/weekly-selection-of-articles-and-resources-from-leading-authors

[47] Лучшие статьи KDnuggets (7 — 13 сентября): http://www.kdnuggets.com/2014/09/top-news-week-sep-7.html

[48] Новости Data Mining: http://mydatamine.com/data-mining-news-september-17-2014/

[49] Наиболее интересные материалы от Freakonometrics: http://freakonometrics.hypotheses.org/16896

[50] Обзор наиболее интересных материалов по анализу данных и машинному обучению №12 (1 — 8 сентября 2014): http://habrahabr.ru/post/235993/

[51] Источник: http://habrahabr.ru/post/237583/