- PVSM.RU - https://www.pvsm.ru -
Когда я только начал своё путешествие к науке о данных, я потратил много времени на то, чтобы понять, с чего начать, что я должен узнать в первую очередь и какие ресурсы должен использовать. За последние два года я узнал несколько вещей, о которых хотел знать раньше, например о том, стоит ли сначала сосредоточиться на программировании или статистике, какие ресурсы я должен использовать для изучения новых навыков, как я должен подходить к изучению этих навыков и так далее. Таким образом, эта статья написана, чтобы дать направления и идеи для тех, кто изучает Data Science [1].
Введение [2]
1. Математика и статистика [3]
2. Основы программирования [4]
3. Алгоритмы и понятия машинного обучения [5]
4. Проекты в области дата-сайнс [6]
Я предполагаю, что как начинающий дата-сайентист вы захотите полностью понять концепции и детали различных алгоритмов машинного обучения, понятия дата-сайнс и так далее.
Поэтому я рекомендую вам начать с базы, прежде чем вы даже посмотрите на алгоритмы машинного обучения или приложения для анализа данных. Если у вас нет базового понимания математического анализа и интегралов, линейной алгебры и статистики, вам будет трудно понять лежащую в основе различных алгоритмов механику. Точно так же, если у вас нет базового понимания Python, вам будет трудно воплотить свои знания в реальных приложениях. Ниже приведен порядок тем, которые я рекомендую изучить:
Как и во всём остальном, вы должны изучить основы, прежде чем приступать к интересным вещам. Поверьте, мне было бы гораздо легче, если бы я начал с изучения математики и статистики, прежде чем приступать к каким-то алгоритмам машинного обучения. Три общие темы, которые я рекомендую посмотреть, — это математический анализ/интегралы, статистика и линейная алгебра (без какого-то порядка).
Интегралы важны, когда речь заходит о распределении вероятностей и тестировании гипотез. Хотя вам не нужно быть экспертом, в ваших же интересах изучить основы интегралов. Первые две статьи предназначены для тех, кто хочет получить представление о том, что такое интегралы, или для тех, кому нужно просто освежить знания. Если вы абсолютно ничего не знаете об интегралах, я рекомендую вам пройти курс Академии Хана. Наконец, вот ссылки на ряд практических задач, чтобы отточить навыки:
Если и есть какая-то тема, на которой вы должны сосредоточиться, то это статистика. В конце концов, дата-сайентист — это действительно современный статистик, а машинное обучение — это современный термин для статистики. Если у вас есть время, я рекомендую вам пройти курс Джорджии Тек под названием «Статистические методы [11]», который охватывает основы вероятности, случайные величины, распределение вероятностей, тестирование гипотез и многое другое. Если у вас нет времени посвятить себя этому курсу, я настоятельно рекомендую посмотреть видео Академии Хана по статистике [12].
Линейная алгебра особенно важна, если вы хотите погрузиться в глубокое обучение, но даже тогда это полезно знать для других фундаментальных концепций машинного обучения, таких как анализ основных компонентов и рекомендательные системы. Для освоения линейной алгебры я также рекомендую Академию Хана [13]!
Точно так же, как важно фундаментальное понимание математики и статистики, фундаментальное понимание программирования сделает вашу жизнь намного проще, особенно когда речь заходит о реализации. Поэтому я рекомендую вам потратить время на изучение базовых языков — SQL и Python, прежде чем погружаться в алгоритмы машинного обучения.
Не важно, с чего начинать, но я начал бы с SQL. Почему? Его легче изучить и полезно знать, если вы заняты в компании, которая работает с данными, даже если вы не дата-сайентист.
Если вы новичок в SQL, я рекомендую ознакомиться с туториалами Mode по SQL [14], так как они очень лаконичны и подробны. Если же вы хотите изучить более продвинутые понятия, посмотрите список ресурсов, где вы можете изучить продвинутый SQL [15].
Ниже приведены несколько ресурсов, которые вы можете использовать для практики SQL:
Я начинал с Python и, вероятно, останусь с этим языком до конца жизни. Он далеко впереди, с точки зрения вкладов в Open Source, и его легко изучить. Не стесняйтесь обращаться к R, если захотите, но у меня нет никаких мнений или советов относительно R. Я обнаружил, что изучение Python с помощью практики гораздо полезнее. Тем не менее, пройдя несколько краш-курсов Python, я пришёл к выводу, что этот курс наиболее полный (и при этом бесплатный!).
Пожалуй, самая важная библиотека, которую нужно знать, — это Pandas, которая специально предназначена для манипулирования данными и их анализа. Ниже приведены два ресурса, которые должны ускорить ваше обучение. Первая ссылка — туториал о том, как использовать Рandas, а вторая ссылка содержит множество практических задач, которые вы можете решать, чтобы закрепить свои знания!
Если вы дошли до этой части статьи, это означает, что вы построили свой фундамент и готовы изучать интересные вещи. Эта часть разделена на две другие: алгоритмы машинного обучения и понятия машинного обучения.
Следующий шаг — изучить различные алгоритмы машинного обучения, как они работают и когда их использовать. Ниже приведён неполный список различных алгоритмов машинного обучения и ресурсов, которые вы можете использовать для изучения каждого из них.
Кроме того, есть несколько фундаментальных понятий машинного обучения, которые вы также захотите изучить. Ниже приведён (не исчерпывающий) список понятий, которые я настоятельно рекомендую изучить. Многие вопросы интервью основаны на этих темах!
К этому моменту вы не только построите прочный фундамент, но и обретёте твёрдое понимание основ машинного обучения. Теперь пришло время поработать над личными сайд-проектами. Если вы хотите ознакомиться с некоторыми простыми примерами проектов дата-сайнс, посмотрите некоторые из моих проектов:
Вот список проектов в области Data Science [50], которые вы можете посмотреть, чтобы придумать интересный сторонний проект.
Я надеюсь, что этот пост даст вам направление и поможет в вашей карьере в области Data Science. Нет никакой серебряной пули, так что не стесняйтесь относиться к этому посту скептически, но я действительно верю, что изучение основ принесёт свои плоды в будущем. А промокод HABR — добавит 10% к скидке на обучение, отраженной на баннере.
Автор: Picard
Источник [67]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/matematika/359601
Ссылки в тексте:
[1] Data Science: https://skillfactory.ru/dstpro?utm_source=infopartners&utm_medium=habr&utm_campaign=habr_DSPR&utm_term=regular&utm_content=091220
[2] Введение: #section1
[3] 1. Математика и статистика: #section2
[4] 2. Основы программирования: #section3
[5] 3. Алгоритмы и понятия машинного обучения: #section4
[6] 4. Проекты в области дата-сайнс: #section5
[7] Введение в интегралы: https://towardsdatascience.com/an-integrals-crash-course-for-data-science-cf6e6dd7c046
[8] Ускоренный курс по интегралам: https://www.albert.io/blog/how-to-solve-integrals-ap-calculus-crash-course/
[9] Академия Хана: интегральное исчисление: https://www.khanacademy.org/math/integral-calculus
[10] Практические вопросы: https://www.albert.io/ap-calculus-ab-bc?utm_source=blog&utm_medium=blog&utm_campaign=ap-calculus
[11] Статистические методы: https://mediaspace.gatech.edu/playlist/dedicated/74258101/1_g5xwvbde/1_iw8fk73m
[12] видео Академии Хана по статистике: https://www.khanacademy.org/math/statistics-probability
[13] Академию Хана: https://www.khanacademy.org/math/linear-algebra
[14] с туториалами Mode по SQL: https://mode.com/sql-tutorial/introduction-to-sql/
[15] список ресурсов, где вы можете изучить продвинутый SQL: https://towardsdatascience.com/6-incredible-resources-to-learn-advanced-sql-364fe0889dcd
[16] Вопросы на Leetcode: https://leetcode.com/problemset/database/
[17] Вопросы на HackerRank: https://www.hackerrank.com/domains/sql?filters%5Bstatus%5D%5B%5D=unsolved&badge_type=sql
[18] Примеры реализации: https://docs.google.com/document/d/1_-pPj_HusumXskhsXFOccimhDSloWkAyEdCOxv7mZFY/edit#heading=h.sspk8oxbveqv
[19] Введение в программирование на Python : https://www.edx.org/professional-certificate/introduction-to-python-programming
[20] Изучайте pandas на Kaggle: https://www.kaggle.com/learn/pandas
[21] Практикуйтесь с Рandas на десятках практических задач!: https://github.com/guipsamora/pandas_exercises
[22] Georgia Tech: https://www2.isye.gatech.edu/~sman/courses/6739/SimpleLinearRegression.pdf
[23] StatQuest: https://www.youtube.com/watch?v=nk2CQITm_eo&ab_channel=StatQuestwithJoshStarmer
[24] StatQuest: https://www.youtube.com/watch?v=yIYKR4sgzI8&ab_channel=StatQuestwithJoshStarmer
[25] MIT: https://www.youtube.com/watch?v=09mb78oiPkA&ab_channel=MITOpenCourseWare
[26] StatQuest: https://www.youtube.com/watch?v=7VeUPuFGJHk&ab_channel=StatQuestwithJoshStarmer
[27] Теренс Шин: https://towardsdatascience.com/a-mathematical-explanation-of-naive-bayes-in-5-minutes-44adebcdb5f8
[28] Луис Серрано: https://www.youtube.com/watch?v=Q8l0Vip5YUw&ab_channel=LuisSerrano
[29] туториал SVM: https://www.svm-tutorial.com/2014/11/svm-understanding-math-part-1/
[30] Алиса Чжао: https://www.youtube.com/watch?v=N1vOgolbjSc&ab_channel=AliceZhao
[31] Теренс Шин: https://towardsdatascience.com/a-beginner-friendly-explanation-of-how-neural-networks-work-55064db60df4
[32] StatQuest: https://www.youtube.com/watch?v=J4Wdy0Wc_xQ&ab_channel=StatQuestwithJoshStarmer
[33] Теренс Шин: https://towardsdatascience.com/a-mathematical-explanation-of-adaboost-4b0c20ce4382?source=friends_link&sk=956d985b9578c3d272e3851a53ee822a
[34] StatQuest: https://www.youtube.com/watch?v=LsK-xG1cLYA&t=9s&ab_channel=StatQuestwithJoshStarmer
[35] StatQuest: https://www.youtube.com/watch?v=3CC4N4z3GJc&t=1s&ab_channel=StatQuestwithJoshStarmer
[36] StatQuest: https://www.youtube.com/watch?v=OtD8wVaFm6E&t=1s&ab_channel=StatQuestwithJoshStarmer
[37] StatQuest: https://www.youtube.com/watch?v=FgakZw6K1QQ&ab_channel=StatQuestwithJoshStarmer
[38] Регуляризация: https://towardsdatascience.com/regularization-in-machine-learning-76441ddcf99a
[39] Дилемма смещения : https://towardsdatascience.com/understanding-the-bias-variance-tradeoff-165e6942b229
[40] Матрица путаницы и соответствующие метрики: https://towardsdatascience.com/understanding-the-confusion-matrix-and-how-to-implement-it-in-python-319202e0fe4d?source=friends_link&sk=434d5a02fcaec213208c2eeb1174b5c6
[41] Площадь под кривой ROC и ROC (видео): https://www.youtube.com/watch?v=4jRBRDbJemM
[42] Бутстрэп-выборка: https://towardsdatascience.com/what-is-bootstrap-sampling-in-machine-learning-and-why-is-it-important-a5bb90cbd89a
[43] Ансамблевое обучение, бэггинг и бустинг: https://towardsdatascience.com/ensemble-learning-bagging-and-boosting-explained-in-3-minutes-2e6d2240ae21
[44] Нормализация и стандартизация: https://www.statisticshowto.com/probability-and-statistics/normal-distributions/normalized-data-normalization/#:~:text=Normalization%20vs.-,Standardization,a%20standard%20deviation%20of%201.
[45] статья: https://towardsdatascience.com/predicting-wine-quality-with-several-classification-techniques-179038ea6434
[46] Github: https://github.com/terenceshin/Predicting-Wine-Quality
[47] статья: https://towardsdatascience.com/coronavirus-data-visualizations-using-plotly-cfbdb8fcfc3d
[48] Github: https://github.com/terenceshin/coronavirus_visualizations
[49] Github: https://github.com/terenceshin/Recommendation-System
[50] список проектов в области Data Science: https://towardsdatascience.com/14-data-science-projects-to-do-during-your-14-day-quarantine-8bd60d1e55e1
[51] Обучение профессии Data Analyst: https://skillfactory.ru/dataanalystpro?utm_source=infopartners&utm_medium=habr&utm_campaign=habr_DAPR&utm_term=regular&utm_content=091220
[52] Frontend-разработчик: https://skillfactory.ru/frontend?utm_source=infopartners&utm_medium=habr&utm_campaign=habr_FR&utm_term=regular&utm_content=091220
[53] Профессия Веб-разработчик: https://skillfactory.ru/webdev?utm_source=infopartners&utm_medium=habr&utm_campaign=habr_WEBDEV&utm_term=regular&utm_content=091220
[54] Курс «Python для веб-разработки»: https://skillfactory.ru/python-for-web-developers?utm_source=infopartners&utm_medium=habr&utm_campaign=habr_PWS&utm_term=regular&utm_content=091220
[55] Продвинутый курс «Machine Learning Pro + Deep Learning»: https://skillfactory.ru/ml-and-dl?utm_source=infopartners&utm_medium=habr&utm_campaign=habr_MLDL&utm_term=regular&utm_content=091220
[56] Курс по Machine Learning: https://skillfactory.ru/ml-programma-machine-learning-online?utm_source=infopartners&utm_medium=habr&utm_campaign=habr_ML&utm_term=regular&utm_content=091220
[57] Курс «Математика и Machine Learning для Data Science»: https://skillfactory.ru/math_and_ml?utm_source=infopartners&utm_medium=habr&utm_campaign=habr_MATML&utm_term=regular&utm_content=091220
[58] Профессия Этичный хакер: https://skillfactory.ru/cybersecurity?utm_source=infopartners&utm_medium=habr&utm_campaign=habr_HACKER&utm_term=regular&utm_content=091220
[59] Разработчик игр на Unity: https://skillfactory.ru/game-dev?utm_source=infopartners&utm_medium=habr&utm_campaign=habr_GAMEDEV&utm_term=regular&utm_content=091220
[60] Курс по JavaScript: https://skillfactory.ru/javascript?utm_source=infopartners&utm_medium=habr&utm_campaign=habr_FJS&utm_term=regular&utm_content=091220
[61] Профессия Java-разработчик: https://skillfactory.ru/java?utm_source=infopartners&utm_medium=habr&utm_campaign=habr_JAVA&utm_term=regular&utm_content=091220
[62] C++ разработчик: https://skillfactory.ru/cplus?utm_source=infopartners&utm_medium=habr&utm_campaign=habr_CPLUS&utm_term=regular&utm_content=091220
[63] Курс по аналитике данных: https://skillfactory.ru/analytics?utm_source=infopartners&utm_medium=habr&utm_campaign=habr_SDA&utm_term=regular&utm_content=091220
[64] Курс по DevOps: https://skillfactory.ru/devops?utm_source=infopartners&utm_medium=habr&utm_campaign=habr_DEVOPS&utm_term=regular&utm_content=091220
[65] Профессия iOS-разработчик с нуля: https://skillfactory.ru/iosdev?utm_source=infopartners&utm_medium=habr&utm_campaign=habr_IOSDEV&utm_term=regular&utm_content=091220
[66] Профессия Android-разработчик с нуля: https://skillfactory.ru/android?utm_source=infopartners&utm_medium=habr&utm_campaign=habr_ANDR&utm_term=regular&utm_content=091220
[67] Источник: https://habr.com/ru/post/532164/?utm_source=habrahabr&utm_medium=rss&utm_campaign=532164
Нажмите здесь для печати.