- PVSM.RU - https://www.pvsm.ru -

Дайджест Университета ИТМО: материалы для тех, кто хочет влиться в Data Science

Сегодня мы подготовили для вас дайджест, в котором постарались собрать самые интересные литературные источники, статьи, видеокурсы и лекции (в том числе подготовленные силами преподавателей, студентов и сотрудников Университета ИТМО), которые позволят познакомиться с Data Science.

Эти материалы затрагивают как теоретические аспекты работы с данными, так и практические — направленные на создание алгоритмов и написание программ.

Дайджест Университета ИТМО: материалы для тех, кто хочет влиться в Data Science - 1 [1] Flickr / Thierry Leclerc [2] / CC [3]

Статьи

Работа с данными — новая наука [4]

Объемы научных данных увеличиваются с поразительной скоростью, потому появляется необходимость в новых математических методах и методах анализа. При этом недостаточно просто собирать и хранить громадные объемы информации, их нужно грамотно организовывать, а для этого нужна специальная структура. Статья о том, как ученые реализуют нетривиальные подходы к работе с данными.

Список ресурсов по машинному обучению. Часть 1 [5]

Адаптированная подборка полезных материалов по машинному обучению, которые обсуждали резиденты Stack Overflow и Stack Exchange. Внимание уделено таким темам, как логистическая регрессия, нейронные сети прямого распределения, обработка естественного языка, метод опорных векторов и др.

Список ресурсов по машинному обучению. Часть 2 [6]

Вторая часть адаптированной подборки полезных материалов: фреймворки, презентации, интервью и другие материалы по теме.

Коламбия Пикчерз не представляет: что могут рассказать данные IMDB [7]

Студент кафедры вычислительной техники Юрий Волков рассказал, как анализировал датасет крупнейшего мирового хранилища информации о фильмах IMDB и к каким выводам пришел.

Глубокое обучение: Немного теории [8]

Что нужно для создания искусственного интеллекта и какие алгоритмы для этого применяются. Сложности реализации и варианты решения проблем.

Подборка: Более 70 источников по машинному обучению для начинающих [9]

Это список предназначен для тех, кто только начинает изучать тему машинного обучения, например, с использованием Python. Здесь вы найдете статьи, курсы, книги, пакеты и инструменты, чаты и обсуждения.

40 инструментов и методик, используемых специалистами по анализу данных [10]

Наиболее часто встречающиеся термины, что они означают и какое значение имеют в контексте науки о данных. Каждый пункт в списке является ссылкой на несколько других статей портала.

Литература

«Голая статистика. Самая интересная книга о самой скучной науке [11]»

Книга подойдет не только специалистам по обработке данных. В ней содержатся основы статистического анализа, которые пригодятся и в других сферах деятельности. Автор книги, профессор Чарльз Уилан, с юмором и наглядными примерами учит находить скрытые взаимосвязи между явлениями.

Статистика: Учебное пособие [12]

Книга разработана в соответствии с программой дисциплины «Статистика» Университета ИТМО, и в ней собраны основные методологические и методические положения по теории статистки и прикладного их применения.

Журнал «Научно-технический вестник информационных технологий, механики и оптики [13]»

Журнал выходит на базе Университета ИТМО и является одним из старейших научных периодических изданий страны. Здесь содержится большое количество статей на тему компьютерных систем и информационных технологий, включая глубокое обучение и анализ статистических данных.

Doing Data Science: Straight Talk from the Frontline [14]

Эта книга основана на курсе Колумбийского университета и позволяет глубоко изучить такие темы, как регрессионные модели, фильтрация спама, рекомендательные машины и большие данные.

Think Stats: Exploratory Data Analysis in Python [15]

Think Stats делает акцент на простых техниках, которые вы можете использовать для исследования реальных сводов данных. Здесь также представлен конкретный пример с данными из Национальных институтов здравоохранения.

«Алгоритмы. Руководство по разработке [16]»

Это наиболее полное руководство по разработке эффективных алгоритмов. В первой части книги рассматриваются типы структур данных, алгоритмы сортировки, примеры использования комбинаторного поиска, эвристических методов и динамического программирования. Во второй части автор разместил список литературы и каталог из 75 наиболее распространенных алгоритмических задач с существующими программными реализациями.

The Elements of Statistical Learning: Data Mining, Inference, and Prediction [17]

В книге нет ни одной строчки кода на Python или R, зато есть множество графиков и формул. Она охватывает большое количество областей: машинное обучение с учителем и без, нейронные сети, деревья решений, метод опорных векторов и ансамбли моделей. На сайте Стэнфордского университета её можно скачать бесплатно.

«Алгоритмы. Построение и анализ [18]»

Книга представляет собой исчерпывающий учебник, охватывающий весь спектр современных алгоритмов: от быстрых алгоритмов и структур данных до алгоритмов с полиномиальным временем работы и специализированных алгоритмов поиска подстрок, вычислительной геометрии и теории чисел.

«Алгоритмы. Разработка и применение [19]»

Читатель сперва знакомится с базовыми аспектами построения алгоритмов, основными понятиями и определениями, а затем переходит к методам построения алгоритмов, неразрешимости и методам решения неразрешимых задач. Самые сложные темы объясняются на простых примерах.

Lean Analytics [20]

Книга рассказывает о том, как использовать данные в бизнес-среде. Она учит, почему важно фокусироваться на одной ключевой метрике при оценке рабочих процессов компании, а также рассказывает о шести видах онлайн-бизнеса и стратегиях работы с данными в каждом из них.

Analytics Lessons Learned: Free e-book with 13 case studies [20]

Это электронное издание является своеобразным дополнением к предыдущей книге. В ней собраны истории о том, как работают с данными такие компании, как Airbnb, Backupify, Sincerely, Swiffer и EMI.

I Heart Logs: Event Data, Stream Processing, and Data Integration [21]

Эта небольшая книжка содержит всего 60 страниц, но она дает хорошее представление о технической стороне процессов сбора и обработки данных. Также читатель узнает, с какими данными работают специалисты по инфраструктуре различных компаний.

Data Science at the Command Line [22]

Эта книга призвана расширить ваши возможности в сфере анализа данных. Еще это единственная книга, содержащая информацию об анализе данных с помощью командной строки.

«Python и анализ данных [23]»

Здесь рассматриваются вопросы переформатирования, очистки и обработки данных на Python. Ее можно также рассматривать как современное практическое введение в разработку научных приложений на Python, ориентированных на обработку данных. Это книга о тех частях языка Python и библиотек для него, которые необходимы для эффективного решения широкого круга аналитических задач.

«R в действии. Анализ и визуализация данных на языке R [24]»

Руководство по обучению языку R, в котором особое внимание уделяется практике. Здесь представлены полезные примеры статистической обработки данных и описаны методы работы с запутанными и неполными данными. Она также учит читателя тому, как правильно представлять данные для визуального исследования.

«Hadoop. Подробное руководство [25]»

Apache Hadoop — фреймворк с открытым исходным кодом, в котором реализована вычислительная парадигма, известная как MapReduce. Эта книга покажет, как использовать всю мощь Hadoop для создания надежных, масштабируемых распределенных систем и обрабатывать большие своды данных.

«Основы Data Science и Big Data. Python и наука о данных [26]»

Каждая из глав этой книги посвящена одному из самых интересных аспектов анализа и обработки данных. Вы начнете с теоретических основ, затем перейдете к алгоритмам машинного обучения, работе с огромными массивами данных, NoSQL, потоковым данным, глубокому анализу текстов и визуализации информации. В многочисленных практических примерах использованы сценарии Python.

Видеокурсы

Узнать больше о Machine Learning и поймать робота: 10 онлайн-курсов, на которые стоит записаться [27]

Подборка из 10 онлайн-курсов от ведущих компаний и университетов мира, записаться на которые никогда не поздно. Программы подойдут для тех, кто уже давно хотел попробовать МООК (массовый открытый онлайн-курс), но решился только сейчас.

Методы и алгоритмы теории графов [28]

Целью курса является формирование базовых знаний, умений и навыков решения наиболее важных и часто встречаемых на практике графовых задач. В составе онлайн-курса используются видео-лекции вместе с опросами по их отдельным частям, упражнения, интерактивные демонстрации и виртуальные лаборатории для формирования и контроля навыков алгоритмического решения задач на графах.

Функциональное программирование: базовый курс [29]

В курсе изучаются основы функционального подхода к программированию и практические вопросы программирования на языке Lisp. Функциональные языки обладают множеством интересных особенностей, знакомство с которыми расширяет кругозор программиста.

Программирование и разработка веб-приложений [30]

Целью курса является формирование базовых знаний, умений и навыков решения наиболее важных и часто встречаемых на практике задач по программированию на языке Python. Также внимание уделяется созданию систем и приложений с использованием CMS Django. Дополнением к курсу может служить бесплатная электронная книга [31] по Python.

Data 8: Основы науки о данных [32]

Курс дает возможность ознакомиться с важными концепциями и навыками программирования и статистического анализа, предлагая работать с реальными сводами данных: экономическими и географическими и информацией из социальных сетей. Все программное обеспечение, используемое в рамках курса, является открытым.

Машинное обучение с Эндрю Ыном [33]

Курс по машинному обучению от Эндрю Ына — учёного в области информатики из Стэнфордского университета. Эндрю начинает с объяснения принципов работы машинного обучения, а затем плавно переходит к алгоритмам и используемым функциям.

P.S. Преподаватели Университета ИТМО проводят онлайн-курсы и на другие темы: геометрическая оптика [34], реология [35], менеджмент [36]. С полным списком доступных курсов вы можете ознакомиться здесь [37].

Автор: itmo

Источник [38]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/big-data/253163

Ссылки в тексте:

[1] Image: https://habrahabr.ru/company/spbifmo/blog/326894/

[2] Thierry Leclerc: https://www.flickr.com/photos/113833059@N03/17820898298/

[3] CC: https://creativecommons.org/licenses/by-nd/2.0/

[4] Работа с данными — новая наука: https://habrahabr.ru/company/spbifmo/blog/277153/

[5] Список ресурсов по машинному обучению. Часть 1: https://habrahabr.ru/company/spbifmo/blog/277511/

[6] Список ресурсов по машинному обучению. Часть 2: https://habrahabr.ru/company/spbifmo/blog/277593/

[7] Коламбия Пикчерз не представляет: что могут рассказать данные IMDB: http://news.ifmo.ru/ru/blog/18/

[8] Глубокое обучение: Немного теории: https://habrahabr.ru/company/spbifmo/blog/271027/

[9] Подборка: Более 70 источников по машинному обучению для начинающих: https://habrahabr.ru/company/spbifmo/blog/276479/

[10] 40 инструментов и методик, используемых специалистами по анализу данных: http://www.datasciencecentral.com/profiles/blogs/40-techniques-used-by-data-scientists

[11] Голая статистика. Самая интересная книга о самой скучной науке: http://www.ozon.ru/context/detail/id/135537331/

[12] Статистика: Учебное пособие: http://openbooks.ifmo.ru/ru/book/1191/statistika:_uchebnoe_posobie_.html

[13] Научно-технический вестник информационных технологий, механики и оптики: http://ntv.ifmo.ru/ru/

[14] Doing Data Science: Straight Talk from the Frontline: https://www.amazon.com/Doing-Data-Science-Straight-Frontline/dp/1449358659/

[15] Think Stats: Exploratory Data Analysis in Python: http://greenteapress.com/thinkstats2/thinkstats2.pdf

[16] Алгоритмы. Руководство по разработке: http://www.ozon.ru/context/detail/id/6290126/

[17] The Elements of Statistical Learning: Data Mining, Inference, and Prediction: https://www.amazon.com/Elements-Statistical-Learning-Prediction-Statistics/dp/0387848576

[18] Алгоритмы. Построение и анализ: http://www.ozon.ru/context/detail/id/33769775/

[19] Алгоритмы. Разработка и применение: http://www.ozon.ru/context/detail/id/135455001/

[20] Lean Analytics: http://leananalyticsbook.com/analytics-lessons-learned-free-e-book-with-13-case-studies/

[21] I Heart Logs: Event Data, Stream Processing, and Data Integration: https://www.amazon.com/Heart-Logs-Stream-Processing-Integration/dp/1491909382/

[22] Data Science at the Command Line: https://www.amazon.com/Data-Science-Command-Line-Time-Tested/dp/1491947853/

[23] Python и анализ данных: https://www.ozon.ru/context/detail/id/32719186/

[24] R в действии. Анализ и визуализация данных на языке R: https://www.manning.com/books/r-in-action

[25] Hadoop. Подробное руководство: https://www.amazon.com/Hadoop-Definitive-Storage-Analysis-Internet/dp/1491901632/

[26] Основы Data Science и Big Data. Python и наука о данных: https://www.amazon.com/Introducing-Data-Science-Machine-Learning/dp/1633430030/

[27] Узнать больше о Machine Learning и поймать робота: 10 онлайн-курсов, на которые стоит записаться: http://news.ifmo.ru/ru/education/trend/news/6523/

[28] Методы и алгоритмы теории графов: https://openedu.ru/course/ITMOUniversity/AGRAPH/

[29] Функциональное программирование: базовый курс: https://openedu.ru/course/ITMOUniversity/FPBC/

[30] Программирование и разработка веб-приложений: https://openedu.ru/course/ITMOUniversity/PWADEV/

[31] книга: https://learnpythonthehardway.org/book/

[32] Data 8: Основы науки о данных: http://data8.org/

[33] Машинное обучение с Эндрю Ыном: https://www.youtube.com/playlist?list=PLJ1-ciQ35nuiyL1PX6O4NdF5CjjaDdnVC

[34] геометрическая оптика: https://openedu.ru/course/ITMOUniversity/GEOOPT/

[35] реология: https://openedu.ru/course/ITMOUniversity/RHEOL/

[36] менеджмент: https://openedu.ru/course/ITMOUniversity/FUNMAN/

[37] здесь: https://openedu.ru/course/#uni=1

[38] Источник: https://habrahabr.ru/post/326894/