Обзор наиболее интересных материалов по анализу данных и машинному обучению №5 (7 — 21 июля 2014)
Представляю очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения (в том числе Deep Learning). Как всегда есть материалы по алгоритмам машинного обучения. Несколько практических статей по популярному пакету для машинного обучения Scikit-Learn для Python. Есть статьи, посвященные практическому применению языка R. Некоторое количество материалов посвящено теме Data Engineering. Присутствуют интересные статьи про популярные проекты 'Google Brain' и 'Project Adam'.
Материалы по анализу данных и машинному обучению
- Про Google Brain [1] [EN]
Интересные размышления про исследовательский проект компании Google, который носит неофициальное название 'Google Brain'.
- Система искусственного интеллекта от Microsoft 'Project Adam' [2] [EN]
Достаточно большая статья о новом проекте от Microsoft Research под названием 'Prjoject Adam'. До какой-то степени этот проект можно назвать ответом Microsoft на проект 'Google Brain'.
- Машинное обучение — микроскоп современного ученого. Зачем ЦЕРНу технологии Яндекса [3] [RU]
Статья о сотрудничестве Яндекс и CERN, а также использовании облачных технологий и машинного обучения в работе CERN.
- Логарифмическое преобразование положительных и отрицательных значений [4] [EN]
Небольшая статья о статистических преобразованиях данных.
- Earl Hathaway рассказывает о технике машинного обучения Distributed GBM (видео) [5] [EN]
В данном видео Earl Hathaway (CTO в компании 0xdata) рассказывает о Distributed GBM (Gradient Boosting) — популярной технике машинного обучения, которая часто используется в соревнованиях по анализу данных, а также полезна и в практическом применении.
- 7 вариантов использования Hadoop в банковской сфере [6] [EN]
Краткий список из 7 возможных вариантов использования семейства продуктов Hadoop при анализе данных в банковской сфере.
- Стартап Clarify [7] [EN]
Небольшой интересный рассказ о новом стартапе в сфере искусственного интеллекта и машинного обучения Clarify, который еще не куплен ни одним из софтверных гигантов и который занимается достаточно интересными исследованиями в области распознования образов и обработкой изображений.
- Оценка финансовых рисков с помощью Apache Spark [8] [EN]
Статья от компании Cloudera, посвященная использованию Apache Spark для оценки финансовых рисков.
- Соглашения об именовании в языке R [9] [EN]
Дискуссия о соглашениях об именовании в языке программирования R, с чем как известно в данном языке есть большие проблемы и неопределенность в стандартах.
- Подстройка параметров алгоритма с помощью Python Scikit-Learn [10] [EN]
Продолжение дискуссии о работе с scikit-learn — популярной библиотекой машинного обучения для Python. В данном случае речь пойдет о подстройке параметров алгоритма.
- Список ресурсов по NoSQL, Big Data и Machine Learning [11] [EN]
Большой список ресурсов по различным направлениям анализа данных (распределенные вычисления, графовые базы данных, анализ временных рядов, визуализация данных, поисковые системы и другие направления).
- Машинное обучение с использованием Java [12] [EN]
Небольшой обзор технологий и продуктов для машинного обучения с использованием языка программирования Java.
- Введение в Microsft Azure Machine Learning [13] [EN]
Краткое введение в новый облачный продукт для машинного обучение Microsoft Azure Machine Learning, который сейчас находится в стадии Public Preview.
- Самообучаемые компьютеры от Darpa [14] [EN]
Статья о проекте Darpa, который призван развивать технологию самообучаемых компьютеров и их применение.
- Популярные Data Science микроблогеры [15] [EN]
Небольшой анализ микроблогов в Twitter, посвященных теме Data Science.
- 15 бесплатных книг по машинному обучению [16] [EN]
Список из 15 бесплатных электронных книг по теме машинного обучения.
- 8 блогов по анализу данных [17] [EN]
Список из 8 отличных блогов, которые посвящены теме анализа данных.
- Список ресурсов по машинному обучению [18] [EN]
Большой список полезных ресурсов по машинному обучению.
- 10 советов по Deep Learning [19] [EN]
10 небольших советов для повышения эффективности результатов при использовании техники машинного обучения Deep Learning.
- Основы анализа данных при помощи Python: библиотеки и структуры данных [20] [EN]
Статья посвящена первым шагам по анализу данных при помощи Pyhton и дополнительных библиотек. Это продолжение дискуссии на данную тему. Текущая статья посвящена библиотекам и структурам данных.
- Deep Learning и обработка естественного языка [21] [EN]
Отличная статья о применении набора алгоритмов Deep Learning при обработке естественного языка.
- Про размер выборки [22] [EN]
Небольшая статья, посвященная размеру выборки, с применением аргументации, основанной на элементарной статистики.
- О масштабировании признаков и нормализации в машинном обучении [23] [EN]
Полезная статья о масштабировании признаков (Feature Scaling) и нормализации (Normalization) при машинном обучении с использованием scikit-learn.
- Векторы в R [24] [EN]
Небольшая статья о работе с векторами в языке программирования R.
- Приключения вокруг feature learning [25] [EN]
Занимательный рассказ от Andrej Karpathy о применение машинного обучения в распознавании образов.
- Подготовка данных с помощью Python Scikit-Learn [26] [EN]
Продолжение дискуссии о работе с scikit-learn — популярной библиотекой машинного обучения для Python. В данном случае речь пойдет о подготовке данных, а именно о процессе Rescaling Data.
- Процесс Feature Selection при помощи Python Scikit-Learn [27] [EN]
Еще одна статья о работе с scikit-learn — популярной библиотекой машинного обучения для Python. В данном случае речь пойдет о процессе Feature Selection при машинном обучении.
- Использование машинного обучения для повышения эффективности работы дата-центров в Google [28] [EN]
Небольшая любопытная статья, о том как в Google использовали машинное обучение для повышения эффективности работы своих дата-центров.
- Рейтинг языка R [29] [EN]
Свежий рейтинг языков программирования от IEEE, в том числе можно увидеть, что R находится на 9 месте среди всех языков.
- Загрузка данных при помощи Scikit-Learn [30] [EN]
Небольшая, но полезная статья про загрузку данных при помощью популярной Python-библиотеки для машинного обучения scikit-learn.
- Зависимости популярных библиотек R [31] [EN]
Небольшая статья про то от каких библиотек зависят популярные пакеты языка R (ggplot2, data.table, plyr, knitr, shiny, xts, lattice) и сколько же в итоге будет установлено библиотек, в случае установки всех популярных библиотек из данного списка.
- Обработка временных рядов с помощью Apache Crunch [32] [EN]
Статья с блога компании Cloudera про работу с временными рядами (time series) с помощью Apache Crunch с примерами кода на Java.
- Предсказание победителя ЧМ по футболу 2014 с помощью R [33] [EN]
Попытка предсказать победителя ЧМ по футболу 2014 с использованием языка R на основе полуфинальных пар. Сейчас уже можно увидеть сбылся ли прогноз.
- 3 вещи, которые помогут улучшить ваш код на R [34] [EN]
Несколько полезных практических советов по улучшению кода на R.
- Data Scientist и Data Engineer [35] [EN]
Короткая статья, сравнивающая две роли в анализе данных: Data Scientist и Data Engineer.
- Быстрая функция для 2x2 таблиц на языке R [36] [EN]
Небольшой пример создания собственной ускоренной функции для создания 2x2 таблиц на языке R, вместо стандартной функции table.
- HDFS и MapReduce простым языком [37] [EN]
Описание таких базовых составляющих Hadoop таких, как Hadoop Distributed File System (HDFS) и MapReduce достаточно простым языком.
- Интервью на позицию специалиста по анализу данных [38] [EN]
Небольшая статья про то чего можно ожидать от интервью на позицию специалиста по анализу данных.
- Data Origami: скринкасты по тематике Data Science [39] [EN]
Небольшой обзор сайта Data Origami, на котором можно найти много скринкастов различного уровня сложности по теме анализа данных и машинного обучения. Правда сайт имеет платную помесячную подписку.
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №4 (23 июня — 7 июля 2014) [40]
Автор: moat
Источник [41]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/data-mining/65498
Ссылки в тексте:
[1] Про Google Brain: http://www.wired.com/2014/07/google_brain/
[2] Система искусственного интеллекта от Microsoft 'Project Adam': http://www.wired.com/2014/07/microsoft-adam/
[3] Машинное обучение — микроскоп современного ученого. Зачем ЦЕРНу технологии Яндекса: http://habrahabr.ru/company/yandex/blog/230367/
[4] Логарифмическое преобразование положительных и отрицательных значений: http://www.statsblogs.com/2014/07/14/a-log-transformation-of-positive-and-negative-values/
[5] Earl Hathaway рассказывает о технике машинного обучения Distributed GBM (видео): http://igorsubbotin.blogspot.ru/2014/07/machine-learning-distributed-gbm.html
[6] 7 вариантов использования Hadoop в банковской сфере: http://smartdatacollective.com/michelenemschoff/212561/banking-hadoop-7-use-cases-hadoop-finance
[7] Стартап Clarify: http://www.wired.com/2014/07/clarifai/
[8] Оценка финансовых рисков с помощью Apache Spark: http://blog.cloudera.com/blog/2014/07/estimating-financial-risk-with-apache-spark/
[9] Соглашения об именовании в языке R: http://www.r-bloggers.com/consistent-naming-conventions-in-r/
[10] Подстройка параметров алгоритма с помощью Python Scikit-Learn: http://machinelearningmastery.com/how-to-tune-algorithm-parameters-with-scikit-learn/
[11] Список ресурсов по NoSQL, Big Data и Machine Learning: http://www.datasciencecentral.com/profiles/blogs/great-list-of-resources-nosql-big-data-ml-and-much-more-posted-on
[12] Машинное обучение с использованием Java: http://machinelearningmastery.com/java-machine-learning/
[13] Введение в Microsft Azure Machine Learning: https://projectbotticelli.com/knowledge/brief-introduction-to-microsoft-azure-ml
[14] Самообучаемые компьютеры от Darpa: http://www.wired.com/2013/03/darpa-machine-learning-2/all/1
[15] Популярные Data Science микроблогеры: http://www.datasciencecentral.com/profiles/blogs/the-fastest-growing-data-science-big-data-profiles-on-twitter
[16] 15 бесплатных книг по машинному обучению: http://electronicsforu.com/electronicsforu/circuitarchives/view_article.asp?sno=1621&article_id=12580&id=12580&page=1#.U8PfhRbxWqk
[17] 8 блогов по анализу данных: https://www.dataorigami.net/blogs/great-data-blogs
[18] Список ресурсов по машинному обучению: http://datascience101.wordpress.com/2014/07/16/huge-list-of-big-data-technologies/
[19] 10 советов по Deep Learning: http://www.lauradhamilton.com/10-tips-for-better-deep-learning-models
[20] Основы анализа данных при помощи Python: библиотеки и структуры данных: http://www.analyticsvidhya.com/blog/2014/07/baby-steps-libraries-data-structure/
[21] Deep Learning и обработка естественного языка: http://colah.github.io/posts/2014-07-NLP-RNNs-Representations/
[22] Про размер выборки: http://jvns.ca/blog/2014/07/11/fun-with-stats-how-big-of-a-sample-size-do-i-need/
[23] О масштабировании признаков и нормализации в машинном обучении: http://sebastianraschka.com/Articles/2014_about_feature_scaling.html#about-min-max-scaling
[24] Векторы в R: http://www.r-bloggers.com/r-notes-vectors/
[25] Приключения вокруг feature learning: http://karpathy.github.io/2014/07/03/feature-learning-escapades/
[26] Подготовка данных с помощью Python Scikit-Learn: http://machinelearningmastery.com/rescaling-data-for-machine-learning-in-python-with-scikit-learn/
[27] Процесс Feature Selection при помощи Python Scikit-Learn: http://machinelearningmastery.com/feature-selection-in-python-with-scikit-learn/
[28] Использование машинного обучения для повышения эффективности работы дата-центров в Google: http://www.techrepublic.com/article/google-leverages-machine-learning-to-keep-its-data-centers-energy-efficient/
[29] Рейтинг языка R: http://www.r-bloggers.com/ieee-ranks-r-9-amongst-all-languages/
[30] Загрузка данных при помощи Scikit-Learn: http://machinelearningmastery.com/how-to-load-data-in-python-with-scikit-learn/
[31] Зависимости популярных библиотек R: http://blog.revolutionanalytics.com/2014/07/dependencies-of-popular-r-packages.html
[32] Обработка временных рядов с помощью Apache Crunch: http://blog.cloudera.com/blog/2014/07/how-to-build-advanced-time-series-pipelines-in-apache-crunch/
[33] Предсказание победителя ЧМ по футболу 2014 с помощью R: http://www.analyticsvidhya.com/blog/2014/07/world-cheering-2014-fifa-wc-winner-twitter/
[34] 3 вещи, которые помогут улучшить ваш код на R: http://www.r-bloggers.com/3-ways-that-functions-can-improve-your-r-code/
[35] Data Scientist и Data Engineer: http://datascience101.wordpress.com/2014/07/08/data-scientist-vs-data-engineer/
[36] Быстрая функция для 2x2 таблиц на языке R: http://www.r-bloggers.com/sometimes-table-is-not-the-answer-a-faster-2x2-table/
[37] HDFS и MapReduce простым языком: http://pythonformachinelearning.wordpress.com/2014/07/08/hdfs-and-mapreduce-a-non-programmers-guide-about-big-data/
[38] Интервью на позицию специалиста по анализу данных: http://www.analyticsvidhya.com/blog/2014/07/definitive-guide-prepare-analytics-interview/
[39] Data Origami: скринкасты по тематике Data Science: http://machinelearningmastery.com/data-science-screencasts-a-data-origami-review/
[40] Обзор наиболее интересных материалов по анализу данных и машинному обучению №4 (23 июня — 7 июля 2014): http://habrahabr.ru/post/228989/
[41] Источник: http://habrahabr.ru/post/230561/
Нажмите здесь для печати.