- PVSM.RU - https://www.pvsm.ru -

Обзор наиболее интересных материалов по анализу данных и машинному обучению №15 (22 — 28 сентября 2014)

Обзор наиболее интересных материалов по анализу данных и машинному обучению №15 (22 — 28 сентября 2014)
Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.

Общее

Соревнования по машинному обучению

  • EN Python Опыт от участия в «Display Advertising Challenge» [21]
    Интересная статья про опыт, полученный от участия в соревновании по машинному обучению «Display Advertising Challenge» на Kaggle, которое закончилось совсем недавно.
  • EN R Использование R, H2O и Domino на Kaggle [22]
    Интересная статья про использование языка программирования R совместно с Domino и H2O в соревновании по машинному обучению под названием «Africa Soil Property Prediction Challenge» на Kaggle.

Онлайн-курсы и обучающие материалы

  • EN Онлайн-курс «Statistical Learning» [23]
    В январе 2014 Стэнфордский университет провел онлайн-курс, основанный на новой книге «An Introduction to Statistical Learning with Applications in R» (ISLR). В данном посте будут представлены видеоматериалы и презентации с данного курса.
  • EN Онлайн-курс «The Caltech-JPL Summer School on Big Data Analytics» [24]
    Достаточно необычный онлайн-курс стартовал в середине сентября на Coursera. По сути, это набор видеолекций и материалов с летней школы машинного обучения от California Institute of Technology.
  • EN Онлайн-курс «Learning From Data» [25]
    На днях на edX стартовала новая сессия данного очень популярного курса по машинному обучению от California Institute of Technology и профессора Yaser Abu-Mostafa в качестве основного инструктора.

Литература

  • EN Обзор книги «Frequent Pattern Mining» [26]
    Обзор книги «Frequent Pattern Mining», вышедшей в 2014 году, от портала KDnuggets.
  • EN Книга «R for Cloud Computing» [27]
    Анонс очень любопытной книги по облачным вычислениям с использованием языка программирования R, которая достаточно скоро появится в продаже.

Теория и алгоритмы машинного обучения, примеры кода

  • EN Что такое Feature Engineering [28]
    Отличная статья от автора блога MachineLearningMastery о процессе Feature Engineering в машинном обучении.
  • EN Динамическое обучение и Sub-Linear Debugging [29]
    Очередная статья с блога Microsoft Technet Machine Learning. На этот раз в статье будет затронута тема динамического обучения (Online Learning) и Sub-Linear Debugging.
  • EN Теория Введение в метод опорных векторов [30]
    Очень простое и краткое введение в метод опорных веторов (Support Vector Machines).
  • EN Для новичков Python Обработка данных с помощью Python [31]
    Данная статья с блога Analytics Vidhya расскажет об обработке данных с помощью языка программирования Python и библиотеки Pandas.
  • EN R Сравнение и выбор обучающих моделей с помощью R Caret [32]
    Очередная статья от автора блога MachineLearningMastery, посвященная возможностям библиотеки машинного обучения Caret для языка программирования R. В данном случае речь пойдет о сравнении обучающих моделей и выборе наиболее эффективной.
  • EN R Как опубликовать графики ggplot2 [33]
    Полезная статья, рассказывающая о том, как опубликовать графики, сделанные с помощью библиотеки ggplot2 для языка программирования R, в виде веб-страницы.
  • EN R Работа с Twitter через REST API и R [34]
    Неплохая статья, описывающая возможность работы с данными Twitter через REST API с помощью библиотеки RTwitterAPI для языка программирования R.
  • EN R Выбор параметров с помощью R Caret [35]
    Автор блога MachineLearningMastery рассказывает о функциональности по выбору признаков (Feature Selection) в популярной библиотеке по машинному обучению Caret для языка программирования R.
  • EN R Факторы не являются объектами первого класса в R [36]
    Достаточно большая статья, описывающая тонкости и возможные проблемы в работе с факторами в языке программирования R.
  • EN R Управление зависимостями в R [37]
    Интересная статья про управления зависимостями между библиотеками в языке программирования R, а также о визуализации этих данных о зависимостях между библиотеками.

Видеоматериалы

Data engineering

Обзоры

Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №14 (15 — 21 сентября 2014) [52]

Автор: moat

Источник [53]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/data-mining/70480

Ссылки в тексте:

[1] IBM Watson становится ближе к бизнесу и обычным пользователям: http://habrahabr.ru/company/ibm/blog/238375/

[2] Новая языково-независимая NLP библиотека: http://habrahabr.ru/post/238359/

[3] Как большие данные меняют облик компаний: http://habrahabr.ru/company/1cloud/blog/238141/

[4] Анализ существующих подходов к распознаванию лиц: http://habrahabr.ru/company/synesis/blog/238129/

[5] Презентации со встречи «Новинки PostgreSQL 9.4 и кое-что ещё»: http://igorsubbotin.blogspot.ru/2014/09/postgresql-94.html

[6] 10 инструментов Big Data: http://architects.dzone.com/articles/10-big-data-tools

[7] 20 открытых источников данных: http://igorsubbotin.blogspot.ru/2014/09/big-data-20-free-big-data-sources-everyone-should-know.html

[8] Как Google использует Deep Learning для борьбы со спамом: http://www.seobythesea.com/2014/09/google-turns-deep-learning-classification-fight-web-spam/

[9] Введение в In-Memory Computing: http://inside-bigdata.com/2014/09/25/insidebigdata-guide-memory-computing/

[10] Введение в Predictive Analytics (часть 4): http://inside-bigdata.com/2014/09/24/predictive-analytics-software/

[11] Список интересных ресурсов: http://www.datasciencecentral.com/profiles/blogs/great-list-of-resources-data-science-visualization-machine

[12] Введение в Big Data в финансовой сфере: http://inside-bigdata.com/2014/09/22/insidebigdata-guide-big-data-finance/

[13] Выбор GPU для машинного обучения: http://timdettmers.wordpress.com/2014/08/14/which-gpu-for-deep-learning/

[14] Библиография по теме Deep Learning: http://memkite.com/blog/2014/09/24/most-popular-de

[15] 43 лидера Data Science: http://www.datasciencecentral.com/profiles/blogs/43-data-science-thought-leaders-according-to-berkeley-university

[16] 5 наиболее привлекательных профессий в области анализа данных: http://smartdatacollective.com/bernardmarr/237331/5-sexiest-big-data-jobs-available-today

[17] KDD — две темы: http://blogs.technet.com/b/machinelearning/archive/2014/09/23/kdd-two-themes.aspx

[18] 50 блогов, которые стоит почитать: http://www.datasciencecentral.com/profiles/blogs/50-blogs-worth-reading

[19] Как Baidu применяет Deep Learning: http://www.datanami.com/2014/09/22/baidu-uses-deep-learning-drive-success-web/

[20] Как работает поиск: http://www.google.com/intl/en_us/insidesearch/howsearchworks/thestory/

[21] Опыт от участия в «Display Advertising Challenge»: https://medium.com/@chris_bour/what-i-learned-from-the-kaggle-criteo-data-science-odyssey-b7d1ba980e6

[22] Использование R, H2O и Domino на Kaggle: http://blog.dominoup.com/using-r-h2o-and-domino-for-a-kaggle-competition/

[23] Онлайн-курс «Statistical Learning»: http://igorsubbotin.blogspot.ru/2014/09/15-hours-of-expert-machine-learning-videos.html

[24] Онлайн-курс «The Caltech-JPL Summer School on Big Data Analytics»: http://igorsubbotin.blogspot.ru/2014/09/mooc-bigdataschool.html

[25] Онлайн-курс «Learning From Data»: http://igorsubbotin.blogspot.ru/2014/09/mooc-learning-from-data-2014.html

[26] Обзор книги «Frequent Pattern Mining»: http://www.kdnuggets.com/2014/09/book-frequent-pattern-mining.html

[27] Книга «R for Cloud Computing»: http://decisionstats.com/2014/09/21/my-new-book-r-for-cloud-computing/

[28] Что такое Feature Engineering: http://machinelearningmastery.com/discover-feature-engineering-how-to-engineer-features-and-how-to-get-good-at-it/

[29] Динамическое обучение и Sub-Linear Debugging: http://blogs.technet.com/b/machinelearning/archive/2014/09/24/online-learning-and-sub-linear-debugging.aspx

[30] Введение в метод опорных векторов: http://www.machinalis.com/blog/support-vector-machines/

[31] Обработка данных с помощью Python: http://www.analyticsvidhya.com/blog/2014/09/data-munging-python-using-pandas-baby-steps-python/

[32] Сравнение и выбор обучающих моделей с помощью R Caret: http://machinelearningmastery.com/compare-models-and-select-the-best-using-the-caret-r-package/

[33] Как опубликовать графики ggplot2: http://blog.revolutionanalytics.com/2014/09/how-to-publish-r-and-ggplot2-to-the-web.html

[34] Работа с Twitter через REST API и R: http://www.joyofdata.de/blog/twitters-rest-api-v1-1-with-r-for-linux-and-windows/

[35] Выбор параметров с помощью R Caret: http://machinelearningmastery.com/feature-selection-with-the-caret-r-package/

[36] Факторы не являются объектами первого класса в R: http://www.win-vector.com/blog/2014/09/factors-are-not-first-class-citizens-in-r/

[37] Управление зависимостями в R: http://www.magesblog.com/2014/09/managing-r-package-dependencies.html

[38] Использование больших данных в финансовой и банковской сферах: http://igorsubbotin.blogspot.ru/2014/09/big-data-banking-financial-services.html

[39] Spark 1.1: улучшение производительности MLlib: http://databricks.com/blog/2014/09/22/spark-1-1-mllib-performance-improvements.html

[40] 5 советов по работе с NoSQL-хранилищами: http://highscalability.com/blog/2014/9/24/5-tips-for-scaling-nosql-databases-dont-trust-assumptionstes.html

[41] Введение в YARN: http://inside-bigdata.com/2014/09/25/data-science-101-apache-yarn-usage-tips-guidelines/

[42] 120 компаний, которые заинтересованы в Hadoop-разработчиках: http://igorsubbotin.blogspot.ru/2014/09/120-companies-hiring-hadoop-developers.html

[43] Производительность Cloudera Impala 1.4: http://blog.cloudera.com/blog/2014/09/new-benchmarks-for-sql-on-hadoop-impala-1-4-widens-the-performance-gap/

[44] Лучшие статьи KDnuggets (21 — 27 сентября): http://www.kdnuggets.com/2014/09/top-news-week-sep-21.html

[45] Дайджест лучших ресурсов от DataScienceCentral: http://www.datasciencecentral.com/profiles/blogs/picks-of-the-week-great-resources-and-articles-found-on-the-web

[46] Еженедельный дайджест от DataScienceCentral: http://www.datasciencecentral.com/profiles/blogs/weekly-digest-september-29

[47] Новости Data Mining: http://mydatamine.com/data-mining-news-september-24-2014/

[48] Лучшие статьи KDnuggets (14 — 20 сентября): http://www.kdnuggets.com/2014/09/top-news-week-sep-14.html

[49] Наиболее интересные материалы от Freakonometrics №167: http://freakonometrics.hypotheses.org/16977

[50] Наиболее интересные материалы от Freakonometrics №166: http://freakonometrics.hypotheses.org/16923

[51] Наиболее интересные материалы по High Scalability: http://highscalability.com/blog/2014/9/26/stuff-the-internet-says-on-scalability-for-september-26th-20.html

[52] Обзор наиболее интересных материалов по анализу данных и машинному обучению №14 (15 — 21 сентября 2014): http://habrahabr.ru/post/237583/

[53] Источник: http://habrahabr.ru/post/238431/