- PVSM.RU - https://www.pvsm.ru -
Несмотря на то, что в интернете существует множество источников свободного программного обеспечения для машинного обучения, Github остается важным центром обмена информацией для всех типов инструментов с открытым исходным кодом, используемых в сообществе специалистов по машинному обучению и анализу данных.
В этой подборке собраны репозитории по машинному обучению, датасетам и Jupyter Notebooks, ранжированные по количеству звезд. В предыдущей [1] части мы рассказывали о популярных репозиториях для изучения работ по визуализации данных и глубокому обучению.
Впечатляющий список систем, библиотек и ПО, классифицированных по языкам и категориям (компьютерное зрение, обработка естественного языка и т.д.). Кроме того, в этом репозитории вы найдете перечень бесплатных книг по машинному обучению, бесплатных (в основном) курсов по машинному обучению, блогов по data science.
Развиваемый с 2007 г. Python-модуль для машинного обучения, построенный на основе библиотек SciPy, NumPy и Matplotlib. Распространяется по лицензии BSD 3-Clause. Scikit-learn — универсальный инструмент для работы, содержащий алгоритмы классификации, регрессии и кластеризации, а также методы подготовки данных и оценки моделей.
Фреймворк машинного обучения с открытым исходным кодом, поддерживающий сбор событий, развёртывание алгоритмов, оценку, шаблоны для известных задач, таких как классификация и рекомендации. Подключается к существующим приложениям с помощью REST API или SDK. PredictionIO основан на масштабируемых сервисах с открытым исходным кодом, таких как Hadoop, HBase (и другие БД), Elasticsearch, Spark.
Материал для новичков в теме. Репозиторий содержит сборник туториалов IPython для библиотеки Scikit-learn, в которой реализовано большое количество алгоритмов машинного обучения, а также несколько ссылок на связанные с Python темы машинного обучения и более общую информацию по анализу данных. Автор дает ссылки на многие другие учебные пособия, охватывающие тему.
Модуль веб-разработки на основе Python с инструментами для анализа, обработки естественного языка (разметка частей речи, поиск n-грамм, анализ настроений, WordNet), машинного обучения, сетевого анализа и визуализации. Модуль создан и хорошо документирован в исследовательском центре компьютерной лингвистики и психолингвистики Антверпенского университета (Бельгия). В репозитории вы найдете более 50 примеров его использования.
Активно развивающаяся библиотека машинного обучения для Go. Предоставляет полнофункциональный, простой в использовании, легко настраиваемый программный пакет для разработчиков. GoLearn реализует знакомый многим интерфейс обучения Scikit-learn.
Система Vowpal Wabbit расширяет границы машинного обучения с помощью таких методов, как хэширование, allreduce, learning2search, активное и интерактивное обучение. Vowpal Wabbit нацелена на быстрое моделирование массивных наборов данных и поддерживает параллельное обучение. Особое внимание уделяется обучению с подкреплением с использованием нескольких контекстуальных «бандитских алгоритмов».
NuPIC реализует алгоритмы машинного обучения иерархической временной памяти (Hierarchical Temporal Memory, HTM). В общем виде HTM является попыткой смоделировать вычислительные операции неокортекса человеческого
aerosolve пытается отличаться от других библиотек, концентрируясь на удобных для пользователя средствах отладки, Scala-коде для обучения, механизме анализа контента изображений для удобного ранжирования, гибкости и контроле над функциями. Библиотека предназначена для использования с редкими интерпретируемыми функциями, которые обычно встречаются в поиске (ключевые слова для поиска, фильтры) или ценообразовании (количество комнат в гостиничном номере, местоположение, цена).
Дополняющий книгу «Machine Learning for Hackers [13]» репозиторий, в котором весь код представлен на языке R, предназначенном для статистической обработки данных (фактически стандарт статистических программ) и работы с графикой. Здесь вы найдете многочисленные пакеты R. В число рассматриваемых тем входят общие задачи классификации, ранжирования и регрессии, а также статистические процедуры анализа компонентов и многомерного масштабирования.
Ещё один впечатляющий своими размерами репозиторий со списком, разделенным на 30 тем: биология, спорт, музеи, естественный язык и т.д. Репозиторий включает в себя несколько сотен наборов данных, большинство из которых бесплатны. Здесь указаны ссылки и на другие подборки больших данных.
Официальный репозиторий OpenAddresses.io — бесплатная и открытая глобальная коллекция уличных адресов. Проект включает в себя названия улиц, номера домов, почтовые индексы и географические координаты.
Каталог всех известных планет, существующих вне Солнечной системы. Раньше база данных обновлялась в течение 24 часов после открытия новой планеты, но сейчас, к сожалению, проект практически не развивается.
База данных Бюро переписи США, адаптированная для интеграции с другими открытыми наборами данных, обладающая удобными функциями для работы и создания собственного настраиваемого набора данных с API Census: статистика, картографический GeoJSON, lat/lng и т.д.
openFDA — это проект Управления по санитарному надзору за качеством пищевых продуктов и медикаментов в США (FDA), целью которого является предоставление коллекции публичных наборов данных для исследователей и разработчиков через API, а также примеров использования этих данных и документации. Здесь есть информация о побочных эффектах лекарственных препараторов, маркировка лекарств, отчеты об отзыве препаратов с рынка и о внесении изменений в рецептурную формулу.
Исходный код для портала открытых данных Организации по ядерным исследованиям ЦЕРН, который описывается как «точка доступа к растущему спектру данных, полученных в результате исследований ЦЕРНа».
Список полезных репозиториев Github, состоящий из блокнотов IPython (Jupyter), ориентированных на работу с данными и машинное обучение.
Сопроводительный репозиторий первого издания книги «Machine Learning with Python [21]» (репозиторий ко второму изданию тут [22]), в которой рассматривается работа с недостающими значениями, преобразование категорийных переменных в форматы, применимые при машинном обучении, выбор информативных свойств, сжатие данных с переносом в подпространства с меньшим количеством измерений.
Репозиторий учебных материалов, кода и данных для различных проектов анализа данных и машинного обучения. Notebook содержит все базовые принципы работы с анализом данных на примере датасета Iris [24], и служит прекрасной иллюстрацией построения рабочего процесса в data science. Базовые пункты для работы в репо почерпнуты из книги «The Elements of Data Analytic Style [25]» (Jeff Leek, 2015).
Коллекция Notebooks и датасетов, охватывающая четыре алгоритмические темы: линейная регрессия, логистическая регрессия, случайные леса и алгоритмы K-Means кластеризации. Learn Data Science основана на материалах, созданных для проекта Open Data Science Training [27].
Репозиторий содержит различные Notebooks IPython — от обзора языка и функциональности IPython до примеров использования различных популярных библиотек в анализе данных. Здесь вы найдете исчерпывающую коллекцию материалов по машинному обучению, глубокому обучению и средам обработки больших данных с курсов «Machine Learning» Andrew Ng (Coursera), «Intro to TensorFlow for Deep Learning» (Udacity) и «Spark» (edX).
Репозиторий для изучения библиотеки Scikit-learn [30], в которой реализовано большое количество алгоритмов машинного обучения. Библиотека предоставляет реализацию целого ряда алгоритмов для обучения как с учителем, так и без него. Scikit-learn построена поверх SciPy [31] (Scientific Python).
Серия очень подробных учебных материалов по IPython Notebook, созданная на основе данных из курса [33] Эндрю Нга по машинному обучению (Стэнфордский университет), курса [34] Тома Митчелла (Университет Карнеги-Меллон) и книги [35] Кристофера М. Бишора «Распознавание образов и машинное обучение».
Представленный список нельзя в полной мере назвать исчерпывающим, поэтому мы приветствуем комментарии со списком ваших любимых (или собственных) репозиториев.
Автор: randall
Источник [36]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/github/312793
Ссылки в тексте:
[1] предыдущей: https://habr.com/ru/company/mailru/blog/437940/
[2] Awesome Machine Learning: https://github.com/josephmisiti/awesome-machine-learning
[3] Scikit-learn: https://github.com/scikit-learn/scikit-learn
[4] PredictionIO: https://github.com/PredictionIO/PredictionIO
[5] Dive Into Machine Learning: https://github.com/hangtwenty/dive-into-machine-learning
[6] Pattern: https://github.com/clips/pattern
[7] GoLearn: https://github.com/sjwhitworth/golearn
[8] Vowpal Wabbit: https://github.com/JohnLangford/vowpal_wabbit
[9] NuPIC (Numenta Platform for Intelligent Computing): https://github.com/numenta/nupic
[10] мозга: http://www.braintools.ru
[11] aerosolve: https://github.com/airbnb/aerosolve
[12] Code for Machine Learning for Hackers: https://github.com/johnmyleswhite/ML_for_Hackers
[13] Machine Learning for Hackers: http://shop.oreilly.com/product/0636920018483.do
[14] Awesome Public Datasets: https://github.com/caesar0301/awesome-public-datasets
[15] OpenAddresses: https://github.com/openaddresses/openaddresses
[16] Open Exoplanet Catalogue: https://github.com/OpenExoplanetCatalogue/open_exoplanet_catalogue
[17] CitySDK: https://github.com/uscensusbureau/citysdk
[18] openFDA: https://github.com/FDA/openfda
[19] CERN Open Data Portal: https://github.com/cernopendata/opendata.cern.ch
[20] Python Machine Learning Book: https://github.com/rasbt/python-machine-learning-book
[21] Machine Learning with Python: https://www.packtpub.com/big-data-and-business-intelligence/python-machine-learning
[22] тут: https://github.com/rasbt/python-machine-learning-book-2nd-edition#whats-new-in-the-second-edition-from-the-first-edition
[23] Example Data Science Notebook: https://github.com/rhiever/Data-Analysis-and-Machine-Learning-Projects/blob/master/example-data-science-notebook/Example%20Machine%20Learning%20Notebook.ipynb
[24] Iris: https://github.com/rhiever/Data-Analysis-and-Machine-Learning-Projects/raw/master/example-data-science-notebook/iris-data.csv
[25] The Elements of Data Analytic Style: https://leanpub.com/datastyle
[26] Learn Data Science: https://github.com/nborwankar/LearnDataScience
[27] Open Data Science Training: http://opendst.org/
[28] IPython Notebooks: https://github.com/jdwittenauer/ipython-notebooks
[29] Scikit-learn Tutorial: https://github.com/jakevdp/sklearn_tutorial
[30] Scikit-learn: http://scikit-learn.org/stable/
[31] SciPy: http://www.scipy.org/
[32] Machine Learning: https://github.com/masinoa/machine_learning
[33] курса: http://www.apple.com/education/itunes-u/
[34] курса: http://www.cs.cmu.edu/~tom/10701_sp11/
[35] книги: https://www.amazon.com/Pattern-Recognition-Learning-Information-Statistics/dp/0387310738
[36] Источник: https://habr.com/ru/post/445530/?utm_source=habrahabr&utm_medium=rss&utm_campaign=445530
Нажмите здесь для печати.