- PVSM.RU - https://www.pvsm.ru -

Обзор наиболее интересных материалов по анализу данных и машинному обучению №11 (25 августа — 1 сентября 2014)

Обзор наиболее интересных материалов по анализу данных и машинному обучению №11 (25 августа — 1 сентября 2014)
Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения. В данном выпуске достаточно много разноплановой информации. Есть много статей, посвященных теме Data Engineering. Есть материалы для новичков и несколько видеолекций. Как обычно упоминаются соревнования по машинному обучению на Kaggle. Интересная статья про стартапы в области Data Science. Любопытная статья про улучшение игрового AI при помощи использования машинного обучения.

Материалы по анализу данных и машинному обучению

  • EN Для новичков Предсказательное моделирование, обучение с учителем и классификация паттернов [1]
    Неплохая статья по машинному обучению, которая будет интересна в том числе и новичкам, которая затрагивает такие темы как обучение с учителем, визуализация при машинном обучении, обработка входных данных, feature enginering, сэмплирование и другие.
  • EN Теория Ruslan Salakhutdinov о Deep Learning на конференции KDD 2014 [2]
    Материалы с выступления Ruslan Salakhutdinov из University of Toronto на конференции KDD 2014, которая прошла в Нью-Йорке.
  • RU HABR Для новичков Data engineering Поговорим за Hadoop [3]
    Введение в экосистему Hadoop на русском языке. В конце есть неплохой набор ссылок на полезные материалы по данной тематике.
  • EN Как стать Data Scientist [4]
    Любопытная статья от портала DataScienceCentral для тех, кто интересуется темой Data Science. Статья кратко описывает понятие Data Scientist, выделяет 4 направления в данной профессии и рассуждает об инструментах, которые необходимы специалисту по анализу данных.
  • RU R Использование функции pbapply() [5]
    Интересный пример использования функции pbapply() из библиотеки pbapply для языка программирования R.
  • RU HABR Data engineering Azure DocumentDB [6]
    Cтатья о новой NoSQL базе данных от компании Microsoft под названием Azure DocumentDB. DomentDB пока находится в стадии preview. В конце данной статьи есть неплохой набор ссылок по теме.
  • EN Data Science стартапы от Y Combinator [7]
    В области Data Science на данный существует достаточно много возможностей для развития бизнеса. В данной статье приводится список Data Science стартапов 2014 года от известного инкубатора стартапов Y Combinator.
  • RU Соревнования по машинному обучению Новое соревнование на Kaggle: Epilepsy Seizure Prediction Challenge [8]
    Не так давно на Kaggle стартовало новое соревнование по машинному обучению American Epilepsy Society Seizure Prediction Challenge. Соревнование продлится до 17 ноября 2014 года.
  • EN 33 необычных проблемы, которые можно решить с помощью Data Science [9]
    Автор популярного портала DataScienceCentral в своем коротком посте опубликовал список 33 проблем из различных областей жизнедеятельности, которые по мнению Vincent Granville могут быть решены с помощью Data Science.
  • EN Еженедельный дайджест от DataScienceCentral [10]
    Регулярный еженедельный дайджест статей по анализу данных от портала DataScienceCentral.
  • EN Литература Список интересной литературы [11]
    Список интересных книг, которые может быть интересно прочитать тем, кто интересует темой анализа данных.
  • RU Новый набор данных от Microsoft Research [12]
    Буквально вчера на сайте Microsoft Research был опубликован интересный набор данных под названием Microsoft Research Dense Visual Annotation Corpus.
  • EN Как машинное обучение помогло улучшить игровой AI [13]
    Достаточно любопытная статья, написанная хорошим живым языком, о том как применение техник машинного обучения помогло автору статьи значительно упростить и улучшить эффективность AI для игрового бота.
  • EN Data engineering Сближение машинного обучения и Big Data [14]
    В статье приведены интересные наблюдения достаточно известного специалиста по анализу данных Mikko Braun по теме необходимости сближения сообществ машинного обучения и Big Data, и о том, что сейчас они на самом деле достаточно далеки друг от друга, что приводит к определенным проблемам и неудобствам.
  • RU Для новичков Диаграммы связей для машинного обучения и Data Mining [15]
    В данном коротком посте приведены две очень интересных и полезных диаграммы связей (mind map) по темам машинного обучения и Data Mining
  • EN Анализ неструктурованных данных [16]
    Продолжение серии статей по анализу текста и о работе с неструктурированными данными. В данном случае от постановки вопросов автор переходит к практическим аспектам и рассуждает на тему обработки и очистки неструктурированных текстовых данных, в качестве подготовки к дальнейшим шагам анализа этих данных.
  • EN Для новичков Так вы хотите быть Data Scientist [17]
    Интересная короткая статья, описывающая основные аспекты профессии под названием Data Scientist.
  • EN Использование Big Data на рынке ценных бумаг [18]
    Автор статьи предлагает 3 практических совета по использованию Big Data для инвестиций на рынках ценных бумаг, которые может использовать каждый.
  • EN Для новичков Видеолекции 100 популярных видео по машинному обучению [19]
    Отличный большой список из ста видео, посвященных машинному обучению, с портала VideoLectures.Net.
  • EN Для новичков Онлайн-курс Онлайн-курс «Анализ данных и статистический вывод» [20]
    В понедельник первого сентября на Coursera стартует второй раз очень хорошо зарекомендовавший себя онлайн-курс по теме анализа данных и статистики «Анализ данных и статистический вывод» от Duke University.
  • EN Дайджест лучших ресурсов от DataScienceCentral (1 сентября) [21]
    Неплохой список свежих интересных статей и ресурсов от DataScienceCentral.
  • EN Data engineering Python Применение байесовских методов машинного обучения с помощью Apache Spark [22]
    Небольшая любопытная статья от авторов блога Cloudera, в которой приводится пример возможности использования байесовских методов машинного обучения с помощи популярного продукта семейства Hadoop под названием Apache Spark и библиотеки PyMC для языка программирования Python.
  • EN Факты и мифы о Big Data [23]
    Небольшая интересная статья от популярного портала insideBIGDATA, в которой автор рассуждает о вопросах популярной сейчас темы Big Data и делится своими мыслями насчет распостраненных заблуждений в данной области.
  • EN Data engineering 12 советов по MongoDB [24]
    Небольшая статья, которая содержит 12 полезных советов для тех, кто хочет использовать популярную NoSQL базу данных MongoDB в боевых условиях.
  • EN Видеолекции R John Chambers: интерфейсы, эффективность и большие данные [25]
    John Chambers в данном видео с конференции «useR! 2014 conference» рассуждает о прошлом, настоящем и будущем языка программирования R в процессе дискуссии под названием «Interfaces, Efficiency and Big Data».
  • EN Для новичков Data engineering Использование Hadoop для больших объемов данных [26]
    Достаточно большая статья об экосистеме Hadoop и вопросах её реального использования при работе с большими объемами данных.
  • EN Data engineering Операции записи в MongoDB [27]
    Статья, которая неплохо описывает тонкости вопрос записи и обновления в MongoDB, приводя несколько режимов работы с MongoDB при обновлении данных: Unacknowledged, Acknowledged, Journalled и др.
  • EN R Нелинейная классификация в R с помощью деревьев принятия решений [28]
    7 видов нелинейной классификации с помощью деревьев принятия решений с примерами кода на языка программирования R от автора популярного блога по анализу данных MachineLearningMastery.
  • EN Data engineering Impala: планы на будущее [29]
    Небольшая статья с блога Cloudera о планах компании на будущее популярного продукта для Hadoop под названием Cloudera Impala, который позволяет работать с данным в Hadoop с помощью SQL-запросов.
  • EN Data engineering Slamdata: SQL-запросы в MongoDB [30]
    Анонс достаточно интересного продукта SlamData, который позволит исполнять SQL-запросы к данным, находящимся в MongoDB. На текущий момент продукт находится в фазе бета-тестирования, релиз запланирован на начала октября текущего года.

Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №10 (18 — 25 августа 2014) [31]

Автор: moat

Источник [32]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/data-mining/68723

Ссылки в тексте:

[1] Предсказательное моделирование, обучение с учителем и классификация паттернов: http://sebastianraschka.com/Articles/2014_intro_supervised_learning.html#supervised-learning-a-typical-workflow

[2] Ruslan Salakhutdinov о Deep Learning на конференции KDD 2014: http://igorsubbotin.blogspot.ru/2014/08/ruslan-salakhutdinov-kdd-14-deep-learning.html

[3] Поговорим за Hadoop: http://habrahabr.ru/company/dataart/blog/234993/

[4] Как стать Data Scientist: http://www.datasciencecentral.com/profiles/blogs/how-to-become-a-data-scientist

[5] Использование функции pbapply(): http://igorsubbotin.blogspot.ru/2014/08/pbapply-for-r.html

[6] Azure DocumentDB: http://habrahabr.ru/post/141198/

[7] Data Science стартапы от Y Combinator: http://mlwave.com/ycombinator-2014-data-science-start-ups/

[8] Новое соревнование на Kaggle: Epilepsy Seizure Prediction Challenge: http://igorsubbotin.blogspot.ru/2014/08/kaggle-seizure-prediction.html

[9] 33 необычных проблемы, которые можно решить с помощью Data Science: http://www.datasciencecentral.com/profiles/blogs/33-unusual-problems-that-can-be-solved-with-data-science

[10] Еженедельный дайджест от DataScienceCentral: http://www.datasciencecentral.com/profiles/blogs/weekly-digest-september-1

[11] Список интересной литературы: http://davegiles.blogspot.ru/2014/08/october-reading-list.html

[12] Новый набор данных от Microsoft Research: http://igorsubbotin.blogspot.ru/2014/08/dense-visual-annotation-corpus.html

[13] Как машинное обучение помогло улучшить игровой AI: http://yieldthought.com/post/95722882055/machine-learning-teaches-me-how-to-write-better-ai

[14] Сближение машинного обучения и Big Data: http://blog.mikiobraun.de/2014/08/big-data-machine-learning-convergence.html

[15] Диаграммы связей для машинного обучения и Data Mining: http://igorsubbotin.blogspot.ru/2014/08/data-mining-machine-learning-mindmaps.html

[16] Анализ неструктурованных данных: http://www.analyticsvidhya.com/blog/2014/08/understanding-analyzing-hidden-structures-unstructured-dataset/

[17] Так вы хотите быть Data Scientist: http://blogs.teradata.com/international/so-you-want-to-be-a-data-scientist/

[18] Использование Big Data на рынке ценных бумаг: http://www.analyticsvidhya.com/blog/2014/08/big-data-profit-stock-market/

[19] 100 популярных видео по машинному обучению: http://blog.videolectures.net/100-most-popular-machine-learning-talks-at-videolectures-net/

[20] Онлайн-курс «Анализ данных и статистический вывод»: http://igorsubbotin.blogspot.ru/2014/08/data-analysis-and-statistical-inference-duke-university-coursera.html

[21] Дайджест лучших ресурсов от DataScienceCentral (1 сентября): http://www.datasciencecentral.com/profiles/blogs/resources-and-articles-from-niche-bloggers-new-batch-august-25

[22] Применение байесовских методов машинного обучения с помощью Apache Spark: http://blog.cloudera.com/blog/2014/08/bayesian-machine-learning-on-apache-spark/

[23] Факты и мифы о Big Data: http://inside-bigdata.com/2014/08/27/big-data-facts-myths/

[24] 12 советов по MongoDB: http://java.dzone.com/articles/12-tips-going-production

[25] John Chambers: интерфейсы, эффективность и большие данные: http://igorsubbotin.blogspot.ru/2014/08/john-chambers-interfaces-effeciency-bigdata.html

[26] Использование Hadoop для больших объемов данных: http://opensource.com/life/14/8/intro-apache-hadoop-big-data

[27] Операции записи в MongoDB: http://java.dzone.com/articles/understanding-durability-write

[28] Нелинейная классификация в R с помощью деревьев принятия решений: http://machinelearningmastery.com/non-linear-classification-in-r-with-decision-trees/

[29] Impala: планы на будущее: http://blog.cloudera.com/blog/2014/08/whats-next-for-impala-focus-on-advanced-sql-functionality/

[30] Slamdata: SQL-запросы в MongoDB: http://blog.mongodirector.com/mongodb-analytics-series-slamdata-run-sql-and-build-reports-directly-on-mongodb/

[31] Обзор наиболее интересных материалов по анализу данных и машинному обучению №10 (18 — 25 августа 2014): http://habrahabr.ru/post/234459/

[32] Источник: http://habrahabr.ru/post/235161/