- PVSM.RU - https://www.pvsm.ru -

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Яндекс открывает новое направление своей деятельности — Yandex Data Factory [1]
Как мы делали полярный график в DevExtreme [2]
Зарплата и инструменты специалистов по анализу данных по результатам опроса от O'Reilly [3]
Почему R сложен для изучения? [4] — обновленная версия статьи с блога r4stats.com о языке программирования R.
В каких сферах применяется Data Science [5]
Прогноз на 2015 для Data Science от Data Science Central [6]
Прогноз на 2015 для Data Science от KDnuggets.com [7]
Прогнозы в сфере аналитики на 2015 год от International Institute of Analytics (IIA) [8]
Большой список публичных наборов данных [9] — отличный список наборов данных по различным тематикам.
Словарь Big Data [10] — небольшой список различных терминов по тематике Big Data от портала Data Science Central, которые должен знать каждый.
Мифы Big Data [11]
5 основных тенденций Big Data в 2014 году [12]
Прогнозы рынка аналитики Big Data на 2015 год от Forbes [13]
Все что вам необходимо знать для того, чтобы стать аналитиком [14] — хорошая подборка ссылок на полезные материалы по теме анализа данных от автора блога Analytics Vidhya.
Как используется качество контента при ранжировании Bing [15]
Интересные статьи от Vincent Granville [16] — небольшой список из 3 статей, которые автор портала Data Science Central рекомендует к прочтению.
Интересные статьи от Vincent Granville [17] — еще 3 рекомендованных статьи от Vincent Granville.
Руководство хакера по нейронным сетям. Схемы реальных значений. Схемы с несколькими логическими элементами [18]
Сравнение скорости построения линейных моделей в R и Eviews [19]
Детекторы углов [20]
Data Science без использования статистики не только возможен, но и желателен [21] — интересные размышления от Vincent Granville по теме Data Science.
Используйте Random Forest: тестирование 179 классификаторов на 121 наборе данных [22] — интересная статья, которая приводит размышления о правильном выборе алгоритма машинного обучения в различных ситуациях.
Сравнение бустрэпа и перекрестных проверок [23] — продолжение серии статей от автора книги «Applied Predictive Modeling» об использовании перекрестных проверок (Cross-validation) в машинном обучении.
3 вопроса, на которые необходимо ответить перед выбором алгоритма машинного обучения [24] — неплохой набор советов по выбору алгоритма машинного обучения, соответствующего поставленной задаче.
12 советов по алгоритму наивного байесовский классификатора [25] — отличный набор советов по использованию алгоритма наивного байесовского классификатора от автора блога Machine Learning Mastery.
Наивный байесовский классификатор с нуля на Python [26] — автор блога Machine Learning Mastery детально описывает реализацию алгоритма наивного байесовского классификатора с нуля с использованием языка программирования Python.
Наивный Байес с помощью Python [27]
Deeppy: библиотека Deep Learning для Python [28]
Ask a Data Scientist: искажающие факторы (Confounding Variables) [29] — очередная статья с популярного портала insideBIGDATA из цикла «Ask a Data Scientist», в данном выпуске речь пойдет об искажающих факторах (Confounding Variables).
Использование Apache Hadoop для предсказания задержек авиарейсов (часть 2) [30] — вторая часть серии статей с блога компании Hortonworks о практическом использовании Apache Hadoop для предсказания задержек авиарейсов.
Пример использования Spark (1): найти человека с похожим списком связей [31]
Пример использования Spark (2): текстовый поиск с помощью SQL [32]
Введение в анализ тональности текста от Kaggle [33] — на сайте Kaggle началось новое достаточно интересное соревнование по машинному обучению, которое посвящено анализу тональности текста (Sentiment analysis) и в данном соревновании особенно привлекает то, что к нему прилагается четыре урока с описанием основных моментов работы NLP и Sentiment analysis.
Методическое пособие «Статистический анализ и визуализация данных с помощью R» [34] — бесплатная книга на русском языке по языку программирования R от автора блога «R: Анализ и визуализация данных».
Анонс нового онлайн-курса «Statistical Learning» от Stanford University [35] — примерно через месяц Stanford Online запускает интересный курс по машинному обучению под названием Statistical Learning.
Материалы с AMP Camp 5 [36] — набор материалов с AMP Camp 5, посвященного теме Big Data, анализа данных и машинного обучения и прошедшего под эгидой UC Berkley в Калифорнии в ноябре этого года.
Введение в анализ данных [37]
Hadoop для сетевых инженеров [39]
Time Series, метрики и статистика: знакомство с InfluxDB [40]
5 правил организации данных [41] — набор советов, которые дает Vincent Granville, которые помогут оптимальнее организовать структуру данных. Очень интересное сравнение данных правил с аналогичными правилами, но датированными 1999 годом.
5 основных проблем измерения производительности Big Data систем [42] — интересная статья с блога Cloudera о 5 проблемах, которые возникают при рещении задач по оценке и сравнению производительности различных Big Data систем.
Сборник полезных советов по Cloudera Impala [43]
Интересное из мира R (1-7 декабря 2014 г.) [44]
Лучшие материалы за неделю от KDnuggets.com (30 ноября — 6 декабря) [45]
Еженедельный дайджест от DataScienceCentral (15 декабря) [46]
Лучшие ресурсы за неделю от Data Elixir (№13) [47]
Еженедельный сборник лучших материалов от R1Soft (12 декабря) [48]
Наиболее интересные материалы от Freakonometrics №191 [49]
Наиболее интересные материалы от Freakonometrics №192 [50]
Наиболее интересные материалы по High Scalability (12 декабря) [51]
Этот месяц в экосистеме Hadoop (ноябрь 2014) [52]Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №25 (1 — 7 декабря 2014) [53]
Автор: moat
Источник [54]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/data-mining/77156
Ссылки в тексте:
[1] Яндекс открывает новое направление своей деятельности — Yandex Data Factory: http://habrahabr.ru/company/yandex/blog/245393/
[2] Как мы делали полярный график в DevExtreme: http://habrahabr.ru/company/devexpress/blog/244359/
[3] Зарплата и инструменты специалистов по анализу данных по результатам опроса от O'Reilly: http://blog.revolutionanalytics.com/2014/12/oreilly-data-scientist-salary-and-tools-survey-november-2014.html
[4] Почему R сложен для изучения?: http://r4stats.com/articles/why-r-is-hard-to-learn/
[5] В каких сферах применяется Data Science: http://www.kdnuggets.com/2014/12/where-analytics-data-mining-data-science-applied.html
[6] Прогноз на 2015 для Data Science от Data Science Central: http://www.datasciencecentral.com/profiles/blogs/10-data-science-predictions-for-2015
[7] Прогноз на 2015 для Data Science от KDnuggets.com: http://www.kdnuggets.com/2014/12/2015-predictions-data-scientists.html
[8] Прогнозы в сфере аналитики на 2015 год от International Institute of Analytics (IIA): http://www.kdnuggets.com/2014/12/iia-2015-analytics-predictions.html
[9] Большой список публичных наборов данных: https://github.com/caesar0301/awesome-public-datasets
[10] Словарь Big Data: http://www.datasciencecentral.com/profiles/blogs/big-data-the-key-vocabulary-everyone-should-understand
[11] Мифы Big Data: http://techcrunch.com/2014/12/06/lies-damn-lies-and-the-myth-of-following-the-data/
[12] 5 основных тенденций Big Data в 2014 году: http://www.informationweek.com/big-data/software-platforms/top-5-big-data-trends-of-2014/a/d-id/1317939
[13] Прогнозы рынка аналитики Big Data на 2015 год от Forbes: http://www.forbes.com/sites/gilpress/2014/12/11/6-predictions-for-the-125-billion-big-data-analytics-market-in-2015/
[14] Все что вам необходимо знать для того, чтобы стать аналитиком: http://www.analyticsvidhya.com/blog/2014/12/start-career-analytics-industry/
[15] Как используется качество контента при ранжировании Bing: http://blogs.bing.com/search-quality-insights/2014/12/08/the-role-of-content-quality-in-bing-ranking/
[16] Интересные статьи от Vincent Granville: http://www.analyticbridge.com/profiles/blogs/great-friday-reading
[17] Интересные статьи от Vincent Granville: http://www.analyticbridge.com/profiles/blogs/nice-reading-for-your-sunday
[18] Руководство хакера по нейронным сетям. Схемы реальных значений. Схемы с несколькими логическими элементами: http://habrahabr.ru/company/paysto/blog/245403/
[19] Сравнение скорости построения линейных моделей в R и Eviews: http://habrahabr.ru/post/245641/
[20] Детекторы углов: http://habrahabr.ru/post/244541/
[21] Data Science без использования статистики не только возможен, но и желателен: http://www.datasciencecentral.com/profiles/blogs/data-science-without-statistics-is-possible-even-desirable
[22] Используйте Random Forest: тестирование 179 классификаторов на 121 наборе данных: http://machinelearningmastery.com/use-random-forest-testing-179-classifiers-121-datasets/
[23] Сравнение бустрэпа и перекрестных проверок: http://appliedpredictivemodeling.com/blog/2014/11/27/08ks7leh0zof45zpf5vqe56d1sahb0
[24] 3 вопроса, на которые необходимо ответить перед выбором алгоритма машинного обучения: http://www.analyticbridge.com/profiles/blogs/wait-why-are-you-using-that-algorithm
[25] 12 советов по алгоритму наивного байесовский классификатора: http://machinelearningmastery.com/better-naive-bayes/
[26] Наивный байесовский классификатор с нуля на Python: http://machinelearningmastery.com/naive-bayes-classifier-scratch-python/
[27] Наивный Байес с помощью Python: http://blog.yhathq.com/posts/naive-bayes-in-python.html
[28] Deeppy: библиотека Deep Learning для Python: https://github.com/andersbll/deeppy
[29] Ask a Data Scientist: искажающие факторы (Confounding Variables): http://insidebigdata.com/2014/12/10/ask-data-scientist-confounding-variables/
[30] Использование Apache Hadoop для предсказания задержек авиарейсов (часть 2): http://hortonworks.com/blog/data-science-hadoop-spark-scala-part-2/
[31] Пример использования Spark (1): найти человека с похожим списком связей: http://www.sasanalysis.com/2014/12/spark-practice-1-find-stranger-that.html
[32] Пример использования Spark (2): текстовый поиск с помощью SQL: http://www.sasanalysis.com/2014/12/spark-practice-2-query-text-using-sql.html
[33] Введение в анализ тональности текста от Kaggle: http://igorsubbotin.blogspot.ru/2014/12/introduction-to-nlp-and-sentiment-analysis-on-kaggle.html
[34] Методическое пособие «Статистический анализ и визуализация данных с помощью R»: http://r-analytics.blogspot.ru/2014/12/r.html#.VI1wH3s_xoM
[35] Анонс нового онлайн-курса «Statistical Learning» от Stanford University: http://igorsubbotin.blogspot.ru/2014/12/stanford-online-course-on-statistical-learning.html
[36] Материалы с AMP Camp 5: http://ampcamp.berkeley.edu/5/#
[37] Введение в анализ данных: http://f.briatte.org/teaching/ida/index.html
[38] Серия вебинаров по RStudio: основные интсрумента Data Science в R: http://rdatamining.wordpress.com/2014/12/10/recordings-of-rstudio-webinar-series-on-essential-tools-for-data-science-with-r/
[39] Hadoop для сетевых инженеров: http://habrahabr.ru/company/cisco/blog/245339/
[40] Time Series, метрики и статистика: знакомство с InfluxDB: http://habrahabr.ru/company/selectel/blog/245515/
[41] 5 правил организации данных: http://www.datasciencecentral.com/profiles/blogs/5-basic-rules-of-data-organization
[42] 5 основных проблем измерения производительности Big Data систем: http://blog.cloudera.com/blog/2014/12/5-pitfalls-of-benchmarking-big-data-systems/
[43] Сборник полезных советов по Cloudera Impala: http://blog.cloudera.com/blog/2014/12/the-impala-cookbook/
[44] Интересное из мира R (1-7 декабря 2014 г.): http://r-analytics.blogspot.ru/2014/12/r-1-7-2014.html#.VIwPyXuxWB0
[45] Лучшие материалы за неделю от KDnuggets.com (30 ноября — 6 декабря): http://www.kdnuggets.com/2014/12/top-news-week-nov-30.html
[46] Еженедельный дайджест от DataScienceCentral (15 декабря): http://www.datasciencecentral.com/profiles/blogs/weekly-digest-december-15
[47] Лучшие ресурсы за неделю от Data Elixir (№13): http://dataelixir.com/issues/13
[48] Еженедельный сборник лучших материалов от R1Soft (12 декабря): http://www.r1soft.com/blog/this-week-in-data-december-12-2014
[49] Наиболее интересные материалы от Freakonometrics №191: http://freakonometrics.hypotheses.org/18202
[50] Наиболее интересные материалы от Freakonometrics №192: http://freakonometrics.hypotheses.org/18230
[51] Наиболее интересные материалы по High Scalability (12 декабря): http://highscalability.com/blog/2014/12/12/stuff-the-internet-says-on-scalability-for-december-12th-201.html
[52] Этот месяц в экосистеме Hadoop (ноябрь 2014): http://blog.cloudera.com/blog/2014/12/this-month-in-the-ecosystem-november-2014/
[53] Обзор наиболее интересных материалов по анализу данных и машинному обучению №25 (1 — 7 декабря 2014): http://habrahabr.ru/post/245195/
[54] Источник: http://habrahabr.ru/post/245795/
Нажмите здесь для печати.