- PVSM.RU - https://www.pvsm.ru -

Другой GitHub: репозитории по Data Science, визуализации данных и глубокому обучению

Другой GitHub: репозитории по Data Science, визуализации данных и глубокому обучению - 1
(с [1])

Гитхаб — это не просто площадка для хостинга [2] и совместной разработки IT-проектов, но и огромная база знаний, составленная сотнями экспертов. К счастью, сервис предоставляет не просто инструменты для работы с открытым исходным кодом, но и качественные материалы для обучения. Мы выбрали некоторые популярные репозитории и отсортировали их по количеству звезд в порядке убывания.

Эта подборка поможет разобраться, на какие именно репозитории стоит обратить внимание, если вас интересует работа с данными и сфера глубокого обучения.

Data Science

The Open Source Data Science Masters [3]
Звезды: 11 227, форки: 4 737

Официальный репозиторий учебной программы Data Science Masters [4], разработанной в качестве альтернативы с открытым исходным кодом формального образования в области Data Science. Репозиторий представляет собой сборник обучающих материалов, собранных за несколько лет.

Awesome Data Science [5]
Звезды: 9 240, форки: 2 761

Мощная подборка, отвечающая на вопросы: «что такое Data Science?» и «что нужно знать, чтобы хорошо разбираться в этой науке?». Удобно разбита на категории. Например, есть список книг [6] по Data Science, подборка инфографик [7] и даже тематические группы в Фейсбук [8].

Jupyter Interactive Notebook [9]
Звезды: 5 242, форки: 2 313

Прародитель этого репозитория — платформа для работы со скриптами на 40 языках программирования Data Science iPython Notebooks [10], набравшая более 14 000 звезд и 4 000 форков. Специалисты по обработке данных и машинному обучению активно её использовали для научных вычислений.

Сегодня Jupyter Notebook — это удобный набор файлов-блокнотов, состоящих из параграфов, в которых пишутся и исполняются запросы. С помощью встроенных визуализаторов блокнот с набором запросов превращается в полноценный дашборд с данными.

Data Science Blogs [11]
Звезды: 4 510, форки: 1 178

Простой, но обширный список обучающих материалов, отсортированный в алфавитном порядке. Здесь вы найдете все популярные блоги, а также множество небольших сайтов с полезной информацией (всего перечислен 251 ресурс).

Data Science Specialization [12]
Звезды: 3 114, форки: 27 184

Репозиторий образовательного курса [13] по Data Science Университета Джонса Хопкинса — очень популярный курс, подготовленный Роджером Пеном, Джеффом Ликом и Брайаном Каффо. Если быть точнее, то программа обучения по специальности «Наука о данных» на Coursera включает несколько взаимосвязанных курсов по разным темам (например, R Programming), касающимся всевозможных аспектов анализа данных, а представленный в подборке репозиторий объединяет информацию, используемую во всех курсах.

Spark Notebook [14]
Звезды: 2 677, форки: 587

Spark Notebook — это блокнот с открытым исходным кодом, предоставляющий интерактивный веб-редактор, который может объединять код Scala, SQL-запросы, Markup и JavaScript для совместного анализа и изучения данных.

Learn Data Science [15]
Звезды: 2 129, форки: 1 210

Коллекция блокнотов iPython, ориентированных на фундаментальные концепции машинного обучения для новичков.

Data Science at the Command Line [16]
Звезды: 2 057, форки: 503

Репозиторий содержит тексты, данные, сценарии и пользовательские инструменты консоли, используемые в книге «Data Science at the Command Line [17]». Это практическое руководство демонстрирует, как комбинировать небольшие, но мощные инструменты командной строки для быстрого получения, очистки, исследования и моделирования данных.

Data Science Specialization Community Site [18]
Звезды: 1 395, форки: 2 661

Несколько студентов, проходивших курс в Университете Джонса Хопкинса, создали настолько качественный контент, что сотрудники университета разместили его в общем доступе, а также сделали каталог для всего интересного контента, созданного сообществом.

Визуализация данных для веба

D3 [19]
Звезды: 81 837, форки: 20 282

D3 — это библиотека визуализации данных JavaScript для HTML и SVG. В D3 акцент сделан на веб-стандартах, благодаря чему вы можете использовать все возможности современных браузеров, не привязывая себя к проприетарной структуре, сочетая мощные компоненты визуализации, управляемый подход и взаимодействие с Document Object Model (DOM) [20]. Это самый популярный проект визуализации данных на GitHub.

Chart.js [21]
Звезды: 41 393, форки: 9 294

Chart.js — библиотека HTML5, создающая визуализацию через элемент <cаnvas>. Chart.js позиционирует себя как простой и гибкий инструмент, интерактивный, поддерживающий шесть различных типов диаграмм.

ECharts [22]
Звезды: 32 204, форки: 9 369

ECharts — браузерная библиотека для построения графиков и визуализации. Проста в использовании, интуитивно понятна и легко настраивается.

Leaflet [23]
Звезды: 23 810, форки: 3 937

Библиотека JavaScript для создания интерактивных карт, ориентированных на мобильное применение. Код библиотеки невероятно мал — она разработана для простого, быстрого и удобного использования. Функции Leaflet могут быть расширены через набор плагинов.

Sigma.js [24]
Звезды: 8 348, форки: 1 305

JS-библиотека, ориентированная на рисование графов. Sigma позволяет разрабатывать представления графов на веб-страницах и интегрировать их в веб-приложения.

Vega [25]
Звезды: 6 559, форки: 702

Vega — декларативный язык для создания, сохранения и обмена интерактивными проектами визуализации. С его помощью можно описать внешний вид и интерактивное поведение визуализации в формате JSON, а также создавать веб-представления с использованием Canvas или SVG. Vega предоставляет базовые строительные блоки для широкого спектра проектов визуализации: загрузка и преобразование данных, масштабирование, проекции карты, условные обозначения, графические метки и т.д.

DC.js [26]
Звезды: 6 458, форки: 1 734

DC.js — многомерная диаграмма, построенная на D3.js для работы с кроссфильтром [27]. DC.js рендерит в формате SVG, совместимом с CSS. Предназначена для мощного анализа данных как в браузере, так и на мобильных устройствах.

Epoch [28]
Звезды: 4 949, форки: 290

Универсальная библиотека визуализации в реальном времени. Фокусируется на двух различных аспектах: базовые диаграммы для создания исторических отчетов и диаграммы в реальном времени для отображения часто обновляемых данных временных рядов.

Глубокое обучение

Keras [29]
Звезды: 37 611, форки: 14 344

Keras — библиотека глубокого обучения на Python, которая используется как в TensorFlow, так и в Theano (да, вы можете запускать её поверх библиотек TensorFlow [30], Theano [31] и CNTK [32]). Keras разработана для быстрого экспериментирования, так как ключом к проведению хороших исследований является способность переходить от идеи к результату с наименьшей задержкой. Благодаря основательной и доступной документации Keras по праву занимает место в нашей подборке.

Caffe [33]
Звезды: 26 892, форки: 16 276

Caffe (Convolution Architecture For Feature Extraction) — библиотека глубокого обучения, связывающая Python и MATLAB. По сути, это библиотека общего назначения, предназначенная для развёртывания свёрточных сетей и для распознавания изображений, речи или мультимедиа.

Также существует проект Caffe2, который включает в себя новые возможности, в частности, рекуррентные нейронные сети. В мае 2018 г. команды Caffe2 и PyTorch объединились, код Caffe2 был перенесен в репозиторий PyTorch [34] (звезд: 24 075, форки: 5 707).

MXNet [35]
Звезды: 16 157, форки: 5 824

Легкая, компактная, гибко распределенная среда глубокого обучения для Python, R, Julia, Scala, Go, JavaScript и др. Для большей производительности MXNet позволяет смешивать императивные и символические методы программирования. Проект также содержит руководства по созданию других систем глубокого обучения.

Data Science IPython Notebooks [10]
Звезды: 14 747, форки: 4 410

Коллекция блокнотов iPython, включающая большие данные, Hadoop, scikit-learn, библиотеки, предназначенные для научных вычислений, и др. Если говорить о глубоком обучении, то охватываются TensorFlow, Theano, Caffe и другие инструменты.

ConvNetJS [36]
Звезды: 9 510, форки: 1 982

ConvNetJS представляет собой реализацию нейронных сетей и их общих модулей на JavaScript. Проект на данный момент не поддерживаемый, но всё ещё заслуживающий внимания. Позволяет обучать свёрточные (или обычные) сети прямо в браузере.

Deeplearning4j [37]
Звезды: 10 227, форки: 4 570

Библиотека глубокого обучения для Java и Scala. Интегрируется с Hadoop и Spark. Deeplearning4j также позволяет проводить вычисления на графических процессорах с поддержкой CUDA. Кроме того, имеются средства для работы с библиотекой на Python. Репозиторий содержит всю необходимую документацию и учебники.

LISA Lab Deep Learning Tutorials [38]
Звезды: 3 673, форки: 2 045

Сборник учебников Университета Монреаля. Представленные здесь материалы знакомят с некоторыми наиболее важными алгоритмами глубокого обучения, а также демонстрируют принцип работы с Theano. Theano — это Python-библиотека, которая упрощает запись моделей глубокого обучения и дает возможность обучать их на GPU.

Этим списком количество интересностей на Гитхабе не исчерпывается. В следующий раз поговорим о проектах для машинного обучения и открытых датасетах. Если у вас есть свои примеры интересных репозиториев, поделитесь ими в комментариях.

Автор: Barrayar

Источник [39]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/github/306875

Ссылки в тексте:

[1] с: https://medium.freecodecamp.org/how-to-get-up-to-3500-github-stars-in-one-week-339102b62a8f

[2] хостинга: https://www.reg.ru/?rlink=reflink-717

[3] The Open Source Data Science Masters: https://github.com/datasciencemasters/go

[4] Data Science Masters: http://datasciencemasters.org/

[5] Awesome Data Science: https://github.com/okulbilisim/awesome-datascience

[6] список книг: https://github.com/bulutyazilim/awesome-datascience#books

[7] подборка инфографик: https://github.com/bulutyazilim/awesome-datascience#infographic

[8] группы в Фейсбук: https://github.com/bulutyazilim/awesome-datascience#facebook-accounts

[9] Jupyter Interactive Notebook: https://github.com/jupyter/notebook

[10] Data Science iPython Notebooks: https://github.com/donnemartin/data-science-ipython-notebooks

[11] Data Science Blogs: https://github.com/rushter/data-science-blogs

[12] Data Science Specialization: https://github.com/DataScienceSpecialization/courses

[13] образовательного курса: https://www.coursera.org/specializations/jhu-data-science

[14] Spark Notebook: https://github.com/andypetrella/spark-notebook

[15] Learn Data Science: https://github.com/nborwankar/LearnDataScience

[16] Data Science at the Command Line: https://github.com/jeroenjanssens/data-science-at-the-command-line

[17] Data Science at the Command Line: https://www.datascienceatthecommandline.com/

[18] Data Science Specialization Community Site: https://github.com/DataScienceSpecialization/DataScienceSpecialization.github.io

[19] D3: https://github.com/mbostock/d3

[20] Document Object Model (DOM): https://en.wikipedia.org/wiki/Document_Object_Model

[21] Chart.js: https://github.com/nnnick/Chart.js

[22] ECharts: https://github.com/ecomfe/echarts

[23] Leaflet: https://github.com/Leaflet/Leaflet

[24] Sigma.js: https://github.com/jacomyal/sigma.js

[25] Vega: https://github.com/vega/vega

[26] DC.js: https://github.com/dc-js/dc.js

[27] кроссфильтром: http://square.github.com/crossfilter/

[28] Epoch: https://github.com/epochjs/epoch

[29] Keras: https://github.com/fchollet/keras

[30] TensorFlow: https://github.com/tensorflow/tensorflow

[31] Theano: https://github.com/Theano/Theano

[32] CNTK: https://github.com/Microsoft/CNTK

[33] Caffe: https://github.com/BVLC/caffe

[34] репозиторий PyTorch: https://github.com/pytorch/pytorch

[35] MXNet: https://github.com/dmlc/mxnet

[36] ConvNetJS: https://github.com/karpathy/convnetjs

[37] Deeplearning4j: https://github.com/deeplearning4j/deeplearning4j

[38] LISA Lab Deep Learning Tutorials: https://github.com/lisa-lab/DeepLearningTutorials

[39] Источник: https://habr.com/ru/post/437940/?utm_campaign=437940