- PVSM.RU - https://www.pvsm.ru -

Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks

Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks - 1

Несмотря на то, что в интернете существует множество источников свободного программного обеспечения для машинного обучения, Github остается важным центром обмена информацией для всех типов инструментов с открытым исходным кодом, используемых в сообществе специалистов по машинному обучению и анализу данных.

В этой подборке собраны репозитории по машинному обучению, датасетам и Jupyter Notebooks, ранжированные по количеству звезд. В предыдущей [1] части мы рассказывали о популярных репозиториях для изучения работ по визуализации данных и глубокому обучению.

Машинное обучение

Awesome Machine Learning [2]
Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks - 2 38 809, Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks - 3 9 615

Впечатляющий список систем, библиотек и ПО, классифицированных по языкам и категориям (компьютерное зрение, обработка естественного языка и т.д.). Кроме того, в этом репозитории вы найдете перечень бесплатных книг по машинному обучению, бесплатных (в основном) курсов по машинному обучению, блогов по data science.

Scikit-learn [3]
Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks - 4 34 067, Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks - 5 16 698

Развиваемый с 2007 г. Python-модуль для машинного обучения, построенный на основе библиотек SciPy, NumPy и Matplotlib. Распространяется по лицензии BSD 3-Clause. Scikit-learn — универсальный инструмент для работы, содержащий алгоритмы классификации, регрессии и кластеризации, а также методы подготовки данных и оценки моделей.

PredictionIO [4]
Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks - 6 11 703, Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks - 71 903

Фреймворк машинного обучения с открытым исходным кодом, поддерживающий сбор событий, развёртывание алгоритмов, оценку, шаблоны для известных задач, таких как классификация и рекомендации. Подключается к существующим приложениям с помощью REST API или SDK. PredictionIO основан на масштабируемых сервисах с открытым исходным кодом, таких как Hadoop, HBase (и другие БД), Elasticsearch, Spark.

Dive Into Machine Learning [5]
Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks - 8 9 163, Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks - 9 1 673

Материал для новичков в теме. Репозиторий содержит сборник туториалов IPython для библиотеки Scikit-learn, в которой реализовано большое количество алгоритмов машинного обучения, а также несколько ссылок на связанные с Python темы машинного обучения и более общую информацию по анализу данных. Автор дает ссылки на многие другие учебные пособия, охватывающие тему.

Pattern [6]
Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks - 10 6 845, Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks - 11 1 353

Модуль веб-разработки на основе Python с инструментами для анализа, обработки естественного языка (разметка частей речи, поиск n-грамм, анализ настроений, WordNet), машинного обучения, сетевого анализа и визуализации. Модуль создан и хорошо документирован в исследовательском центре компьютерной лингвистики и психолингвистики Антверпенского университета (Бельгия). В репозитории вы найдете более 50 примеров его использования.

GoLearn [7]
Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks - 12 6 374, Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks - 13 867

Активно развивающаяся библиотека машинного обучения для Go. Предоставляет полнофункциональный, простой в использовании, легко настраиваемый программный пакет для разработчиков. GoLearn реализует знакомый многим интерфейс обучения Scikit-learn.

Vowpal Wabbit [8]
Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks - 14 6 189, Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks - 15 1 519

Система Vowpal Wabbit расширяет границы машинного обучения с помощью таких методов, как хэширование, allreduce, learning2search, активное и интерактивное обучение. Vowpal Wabbit нацелена на быстрое моделирование массивных наборов данных и поддерживает параллельное обучение. Особое внимание уделяется обучению с подкреплением с использованием нескольких контекстуальных «бандитских алгоритмов».

NuPIC (Numenta Platform for Intelligent Computing) [9]
Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks - 16 5 852, Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks - 17 1 570

NuPIC реализует алгоритмы машинного обучения иерархической временной памяти (Hierarchical Temporal Memory, HTM). В общем виде HTM является попыткой смоделировать вычислительные операции неокортекса человеческого мозга [10] и фокусируется на сохранении и вызове пространственных и временных паттернов. HTM — это система памяти, она не программируется, не учится выполнять алгоритмы для различных задач, она учится решать проблему. NuPIC подходит для решения всевозможных задач, в частности, для обнаружения аномалий, связанных с паттернами.

aerosolve [11]
Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks - 18 4 522, Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks - 19 570

aerosolve пытается отличаться от других библиотек, концентрируясь на удобных для пользователя средствах отладки, Scala-коде для обучения, механизме анализа контента изображений для удобного ранжирования, гибкости и контроле над функциями. Библиотека предназначена для использования с редкими интерпретируемыми функциями, которые обычно встречаются в поиске (ключевые слова для поиска, фильтры) или ценообразовании (количество комнат в гостиничном номере, местоположение, цена).

Code for Machine Learning for Hackers [12]
Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks - 20 3 467, Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks - 21 2 220

Дополняющий книгу «Machine Learning for Hackers [13]» репозиторий, в котором весь код представлен на языке R, предназначенном для статистической обработки данных (фактически стандарт статистических программ) и работы с графикой. Здесь вы найдете многочисленные пакеты R. В число рассматриваемых тем входят общие задачи классификации, ранжирования и регрессии, а также статистические процедуры анализа компонентов и многомерного масштабирования.

Датасеты на Github

Awesome Public Datasets [14]
Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks - 22 31 852, Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks - 23 5 361

Ещё один впечатляющий своими размерами репозиторий со списком, разделенным на 30 тем: биология, спорт, музеи, естественный язык и т.д. Репозиторий включает в себя несколько сотен наборов данных, большинство из которых бесплатны. Здесь указаны ссылки и на другие подборки больших данных.

OpenAddresses [15]
Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks - 24 1 644, Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks - 25 745

Официальный репозиторий OpenAddresses.io — бесплатная и открытая глобальная коллекция уличных адресов. Проект включает в себя названия улиц, номера домов, почтовые индексы и географические координаты.

Open Exoplanet Catalogue [16]
Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks - 26 583, Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks - 27 176

Каталог всех известных планет, существующих вне Солнечной системы. Раньше база данных обновлялась в течение 24 часов после открытия новой планеты, но сейчас, к сожалению, проект практически не развивается.

CitySDK [17]
Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks - 28 510, Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks - 29 149

База данных Бюро переписи США, адаптированная для интеграции с другими открытыми наборами данных, обладающая удобными функциями для работы и создания собственного настраиваемого набора данных с API Census: статистика, картографический GeoJSON, lat/lng и т.д.

openFDA [18]
Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks - 30 353, Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks - 31 84

openFDA — это проект Управления по санитарному надзору за качеством пищевых продуктов и медикаментов в США (FDA), целью которого является предоставление коллекции публичных наборов данных для исследователей и разработчиков через API, а также примеров использования этих данных и документации. Здесь есть информация о побочных эффектах лекарственных препараторов, маркировка лекарств, отчеты об отзыве препаратов с рынка и о внесении изменений в рецептурную формулу.

CERN Open Data Portal [19]
Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks - 32 247, Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks - 33 88

Исходный код для портала открытых данных Организации по ядерным исследованиям ЦЕРН, который описывается как «точка доступа к растущему спектру данных, полученных в результате исследований ЦЕРНа».

IPython (Jupyter) Notebooks

Список полезных репозиториев Github, состоящий из блокнотов IPython (Jupyter), ориентированных на работу с данными и машинное обучение.

Python Machine Learning Book [20]
Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks - 34 9 655, Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks - 35 3 674

Сопроводительный репозиторий первого издания книги «Machine Learning with Python [21]» (репозиторий ко второму изданию тут [22]), в которой рассматривается работа с недостающими значениями, преобразование категорийных переменных в форматы, применимые при машинном обучении, выбор информативных свойств, сжатие данных с переносом в подпространства с меньшим количеством измерений.

Example Data Science Notebook [23]
Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks - 36 4 156, Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks - 37 1 463

Репозиторий учебных материалов, кода и данных для различных проектов анализа данных и машинного обучения. Notebook содержит все базовые принципы работы с анализом данных на примере датасета Iris [24], и служит прекрасной иллюстрацией построения рабочего процесса в data science. Базовые пункты для работы в репо почерпнуты из книги «The Elements of Data Analytic Style [25]» (Jeff Leek, 2015).

Learn Data Science [26]
Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks - 38 2 197, Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks - 39 1 228

Коллекция Notebooks и датасетов, охватывающая четыре алгоритмические темы: линейная регрессия, логистическая регрессия, случайные леса и алгоритмы K-Means кластеризации. Learn Data Science основана на материалах, созданных для проекта Open Data Science Training [27].

IPython Notebooks [28]
Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks - 40 2 106, Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks - 41 1 226

Репозиторий содержит различные Notebooks IPython — от обзора языка и функциональности IPython до примеров использования различных популярных библиотек в анализе данных. Здесь вы найдете исчерпывающую коллекцию материалов по машинному обучению, глубокому обучению и средам обработки больших данных с курсов «Machine Learning» Andrew Ng (Coursera), «Intro to TensorFlow for Deep Learning» (Udacity) и «Spark» (edX).

Scikit-learn Tutorial [29]
Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks - 42 963, Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks - 43 573

Репозиторий для изучения библиотеки Scikit-learn [30], в которой реализовано большое количество алгоритмов машинного обучения. Библиотека предоставляет реализацию целого ряда алгоритмов для обучения как с учителем, так и без него. Scikit-learn построена поверх SciPy [31] (Scientific Python).

Machine Learning [32]
Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks - 44 543, Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks - 45 336

Серия очень подробных учебных материалов по IPython Notebook, созданная на основе данных из курса [33] Эндрю Нга по машинному обучению (Стэнфордский университет), курса [34] Тома Митчелла (Университет Карнеги-Меллон) и книги [35] Кристофера М. Бишора «Распознавание образов и машинное обучение».

Представленный список нельзя в полной мере назвать исчерпывающим, поэтому мы приветствуем комментарии со списком ваших любимых (или собственных) репозиториев.

Автор: randall

Источник [36]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/github/312793

Ссылки в тексте:

[1] предыдущей: https://habr.com/ru/company/mailru/blog/437940/

[2] Awesome Machine Learning: https://github.com/josephmisiti/awesome-machine-learning

[3] Scikit-learn: https://github.com/scikit-learn/scikit-learn

[4] PredictionIO: https://github.com/PredictionIO/PredictionIO

[5] Dive Into Machine Learning: https://github.com/hangtwenty/dive-into-machine-learning

[6] Pattern: https://github.com/clips/pattern

[7] GoLearn: https://github.com/sjwhitworth/golearn

[8] Vowpal Wabbit: https://github.com/JohnLangford/vowpal_wabbit

[9] NuPIC (Numenta Platform for Intelligent Computing): https://github.com/numenta/nupic

[10] мозга: http://www.braintools.ru

[11] aerosolve: https://github.com/airbnb/aerosolve

[12] Code for Machine Learning for Hackers: https://github.com/johnmyleswhite/ML_for_Hackers

[13] Machine Learning for Hackers: http://shop.oreilly.com/product/0636920018483.do

[14] Awesome Public Datasets: https://github.com/caesar0301/awesome-public-datasets

[15] OpenAddresses: https://github.com/openaddresses/openaddresses

[16] Open Exoplanet Catalogue: https://github.com/OpenExoplanetCatalogue/open_exoplanet_catalogue

[17] CitySDK: https://github.com/uscensusbureau/citysdk

[18] openFDA: https://github.com/FDA/openfda

[19] CERN Open Data Portal: https://github.com/cernopendata/opendata.cern.ch

[20] Python Machine Learning Book: https://github.com/rasbt/python-machine-learning-book

[21] Machine Learning with Python: https://www.packtpub.com/big-data-and-business-intelligence/python-machine-learning

[22] тут: https://github.com/rasbt/python-machine-learning-book-2nd-edition#whats-new-in-the-second-edition-from-the-first-edition

[23] Example Data Science Notebook: https://github.com/rhiever/Data-Analysis-and-Machine-Learning-Projects/blob/master/example-data-science-notebook/Example%20Machine%20Learning%20Notebook.ipynb

[24] Iris: https://github.com/rhiever/Data-Analysis-and-Machine-Learning-Projects/raw/master/example-data-science-notebook/iris-data.csv

[25] The Elements of Data Analytic Style: https://leanpub.com/datastyle

[26] Learn Data Science: https://github.com/nborwankar/LearnDataScience

[27] Open Data Science Training: http://opendst.org/

[28] IPython Notebooks: https://github.com/jdwittenauer/ipython-notebooks

[29] Scikit-learn Tutorial: https://github.com/jakevdp/sklearn_tutorial

[30] Scikit-learn: http://scikit-learn.org/stable/

[31] SciPy: http://www.scipy.org/

[32] Machine Learning: https://github.com/masinoa/machine_learning

[33] курса: http://www.apple.com/education/itunes-u/

[34] курса: http://www.cs.cmu.edu/~tom/10701_sp11/

[35] книги: https://www.amazon.com/Pattern-Recognition-Learning-Information-Statistics/dp/0387310738

[36] Источник: https://habr.com/ru/post/445530/?utm_source=habrahabr&utm_medium=rss&utm_campaign=445530