- PVSM.RU - https://www.pvsm.ru -

Подборка датасетов для машинного обучения

Привет, читатель!

Перед тобой статья-путеводитель по открытым наборам данных для машинного обучения. В ней я, для начала, соберу подборку интересных и свежих (относительно) датасетов [1]. А бонусом, в конце статьи, прикреплю полезные ссылки по самостоятельному поиску датасетов.

Меньше слов, больше данных.

image

Подборка датасетов для машинного обучения:

  • Данные смертей и сражений из игры престолов [2] — этот набор данных объединяет три источника данных, каждый из которых основан на информации из серии книг.
  • Глобальная база данных терроризма [3] — Более 180 000 террористических атак по всему миру, 1970-2017.
  • Биткойн, исторические данные [4] — данные биткойнов с интервалом в 1 минуту с избранных бирж, январь 2012 г. — март 2019 г.
  • FIFA 19 полный набор данных игроков [5] — 18k + FIFA 19 игроков, ~ 90 атрибутов, извлеченных из последней базы данных FIFA.
  • Статистика видео YouTube [6] — ежедневная статистика трендовых видео на YouTube.
  • Обзор показателей самоубийств с 1985 по 2016 год [7] — Сравнение социально-экономической информации с показателями самоубийств по годам и странам.
  • Huge Stock Market Dataset [8] — исторические дневные цены и объемы всех американских акций и ETF.
  • Индикаторы мирового развития [9] — показатели развития стран со всего мира.
  • Kaggle Machine Learning & Data Science Survey 2017 [10] — Большое представление о состоянии науки о данных и машинного обучения.
  • Данные о насилии и оружии [11] — полный отчет о более чем 260 тыс. американских инцидентов с применением оружия в 2013-2018 гг.
  • Рентгенография грудной клетки (пневмония) [12] — 5,863 изображения, 2 категории.
  • Распознавание пола по голосу [13] — эта база данных была создана, чтобы идентифицировать голос как мужской или женский, основываясь на акустических свойствах голоса и речи. Набор данных состоит из 3168 записанных голосовых сэмплов, собранных от мужчин и женщин.
  • Студенческое потребление алкоголя [14] — данные были получены в ходе опроса учащихся по математике и португальскому языку на курсах в средней школе. Он содержит много интересной социальной, гендерной и учебной информации о студентах.
  • Набор данных о клетках малярии [15] — сотовые изображения для выявления малярии.
  • Опросы молодых людей [16] — данные о предпочтениях, интересах, привычках, мнениях и страхах молодых людей.
  • Мировые рейтинги университетов [17] — исследуйте лучшие университеты мира.
  • Обнаружение мошенничества с кредитными картами [18] — датасет по анонимным транзакциям кредитных карт, помеченные как мошеннические или подлинные.
  • Датасет болезней сердца [19] — эта база данных содержит 76 атрибутов, таких как возраст, пол, тип боли в груди, артериальное давление в покое и другие.
  • Европейская футбольная база [20] — 25 000+ матчей, атрибуты игроков и команд для европейского профессионального футбола.
  • Винные обзоры [21] — 130k винных обзоров с разнообразием, местоположением, винодельней, ценой и описанием.
  • Baidu Apolloscapes [22]. Большой датасет для распознавания 26 семантически разных объектов вроде машин, велосипедов, пешеходов, зданий, уличных фонарей и т. д.
  • Comma.ai [23]. Более семи часов езды по шоссе. Датасет включает информацию о скорости машины, ускорении, угле поворота руля и GPS-координатах.
  • Распознавание цветов [24] — этот набор данных содержит 4242 изображения цветов. Сбор данных основан на данных flicr, изображениях Google, изображениях Яндекса.
  • Ежедневная рыночная цена каждой криптовалюты [25] — исторические цены на криптовалюту для всех токенов.
  • Шоколадный рейтинг [26] — Экспертный рейтинг более 1700 шоколадных батончиков.
  • Рынок медицинского страхования [27] — данные о планах в области здравоохранения и стоматологии на рынке медицинского страхования США.
  • Звуки сердцебиения [28] — классификация аномалий сердцебиения по стетоскопу.
  • База данных аниме рекомендаций [29] — рекомендации от 76 000 пользователей на myanimelist.net
  • Изображения клеток крови [30] — 12 500 изображений: 4 разных типа клеток.
  • Рентгенография грудной клетки [31] — более 112 000 рентгенограмм грудной клетки от более чем 30 000 уникальных пациентов.
  • Отчеты об убийствах, 1980-2014 гг. [32] — проект «Ответственность за убийства» — самая полная база данных об убийствах в Соединенных Штатах, доступных в настоящее время.
  • База данных подержанных автомобилей [33] — более 370000 подержанных автомобилей. Содержание данных на немецком языке, поэтому нужно сначала перевести их, если вы не говорите на немецком.
  • Дом открытых данных правительства США [34] — данные, инструменты и ресурсы для проведения исследований, разработки веб-приложений и мобильных приложений, разработки визуализаций данных.
  • Национальный центр [35] профилактики хронических заболеваний и укрепления здоровья (NCCDPHP). Центр работает над снижением факторов риска хронических заболеваний.
  • Крупнейший [36] в Великобритании сборник социальных, экономических и демографических ресурсов.
  • EconData [37] — несколько тысяч экономических временных рядов, подготовленных рядом правительственных учреждений США и распространенных в различных форматах и ​​СМИ.
  • Центр исследования побережья [38] — интересные данные о море и его биологическом составе. Здесь можно найти датасеты начиная с анализа данных модели Красного моря до исследования температуры и течений над узким южным калифорнийским шельфом.
  • Набор данных цифр языка жестов [39] — Турция, Анкара, Айранджи, Анадолу. Набор данных о языке жестов средней школы.
  • Качество красного вина [40] — простой и понятный практический набор данных для регрессионного или классификационного моделирования.
  • Таблицы [41] английской футбольной премьер-лиги (1968-2019).
  • HotspotQA Dataset [42] — датасет с вопросами-ответами, позволяющий создавать системы для ответов на вопросы более понятным способом.
  • xView [43] — один из самых больших общедоступных наборов воздушных снимков земли. Он содержит изображения различных сцен со всего мира, аннотированных с помощью ограничительных рамок.
  • Labelme [44] — Большой датасет аннотированных изображений.
  • ImageNet [45] — Датасет изображений для новых алгоритмов, организованный в соответствии с иерархией WordNet, в которой сотни и тысячи изображений представляют каждый узел иерархии.
  • LSUN. [46] — датасет изображений, разбитых по сценам и категориям с частичной разметкой данных.
  • MS COCO [47] — крупномасштабный датасет для обнаружения и сегментации объектов.
  • COIL100 [48] — 100 разных объектов, изображённых под каждым углом в круговом обороте.
  • Visual Genome [49] — датасет с ~100 тыс. подробно аннотированных изображений.
  • Google’s Open Images. [50] — коллекция из 9 миллионов URL-адресов к изображениям, «которые были помечены метками, охватывающими более 6000 категорий» под лицензией Creative Commons.
  • Labelled Faces [51] in the Wild — набор из 13 000 размеченных изображений лиц людей для использования приложений, которые предполагают использование технологии распознавания лиц.
  • Stanford Dogs Dataset [52] — содержит 20 580 изображений из 120 пород собак.
  • Indoor Scene Recognition. [53] — датасет для распознавания интерьера зданий. Содержит 15 620 изображений и 67 категорий.
  • Oxford’s Robotic Car [54] — более 100 повторений одного маршрута по Оксфорду, заснятого в течение года. В датасет попали разные комбинации погодных условий, трафика и пешеходов, а также более длительные изменения вроде дорожных работ.
  • Cityscape Dataset [55] — большой датасет, содержащий записи ста уличных сцен в 50 городах.
  • KUL Belgium Traffic Sign Dataset [56] — более 10 000 аннотаций тысяч разных светофоров в Бельгии.
  • LISA Laboratory for Intelligent & Safe Automobiles [57] — датасет с дорожными знаками, светофорами, распознанными средствами передвижения и траекториями движения.
  • Bosch Small Traffic Light Dataset [58] — датасет с 24 000 аннотированных светофоров.
  • WPI datasets [59] — датасет для распознавания светофоров, пешеходов и дорожной разметки.
  • Berkeley DeepDrive [60] — огромный датасет для автопилотов. Он содержит более 100 000 видео с более чем 1100 часами записей вождения в разное время дня и в различных погодных условиях.
  • MIMIC-III [61] — датасет с обезличенными данными о состоянии здоровья ~40 000 пациентов, находящихся на интенсивной терапии (демографическими данными, показатели жизнедеятельности, лабораторными анализами и лекарствами).
  • Amazon Reviews [62] — Содержит около 35 млн отзывов с Amazon за 18 лет. Данные включают информацию о продукте и пользователе, оценки и сам текст отзыва.

Полезные ссылки по поиску датасетов:

  • Конечно же Kaggle [63] — место встречи всех любителей соревнований по машинному обучению.
  • Google Dataset Search [64] — поиск датасетов по всей сети интернет. Также, при необходимости можно добавить свои наборы данных [65].
  • Machine Learning Repository [66] — набор баз данных, теорий предметной области и генераторов данных, которые используются сообществом машинного обучения для эмпирического анализа алгоритмов машинного обучения.
  • VisualData [67] — поиск датасетов для машинного зрения, с удобной классификацией по категориям.
  • DATA USA [68] — полный набор по общедоступным данным США c визуализацией, описанием и инфографикой.

На этом наша короткая подборка подошла к концу. Если у кого-то есть, что дополнить или поделиться — пишите в комментариях.

Всем знаний!

Подпишись на канал «Нейрон» в Телеграме [69] ― там свежие статьи и новости из мира науки о данных появляются каждую неделю. Спасибо всем, кто помогает с полезными ссылками, особенно Игорю Мариарти, Андрею Бондаренко и Матвею Кочергину.

Автор: Rushan

Источник [70]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/python/318136

Ссылки в тексте:

[1] датасетов: https://ru.wikipedia.org/wiki/Data_set_(IBM)

[2] Данные смертей и сражений из игры престолов: https://www.kaggle.com/mylesoneill/game-of-thrones

[3] Глобальная база данных терроризма: https://www.kaggle.com/START-UMD/gtd

[4] Биткойн, исторические данные: https://www.kaggle.com/mczielinski/bitcoin-historical-data

[5] FIFA 19 полный набор данных игроков: https://www.kaggle.com/karangadiya/fifa19

[6] Статистика видео YouTube: https://www.kaggle.com/datasnaek/youtube-new

[7] Обзор показателей самоубийств с 1985 по 2016 год: https://www.kaggle.com/russellyates88/suicide-rates-overview-1985-to-2016

[8] Huge Stock Market Dataset: https://www.kaggle.com/borismarjanovic/price-volume-data-for-all-us-stocks-etfs

[9] Индикаторы мирового развития: https://www.kaggle.com/worldbank/world-development-indicators

[10] Kaggle Machine Learning & Data Science Survey 2017: https://www.kaggle.com/kaggle/kaggle-survey-2017

[11] Данные о насилии и оружии: https://www.kaggle.com/jameslko/gun-violence-data

[12] Рентгенография грудной клетки (пневмония): https://www.kaggle.com/paultimothymooney/chest-xray-pneumonia

[13] Распознавание пола по голосу: https://www.kaggle.com/primaryobjects/voicegender

[14] Студенческое потребление алкоголя: https://www.kaggle.com/uciml/student-alcohol-consumption

[15] Набор данных о клетках малярии: https://www.kaggle.com/iarunava/cell-images-for-detecting-malaria

[16] Опросы молодых людей: https://www.kaggle.com/miroslavsabo/young-people-survey

[17] Мировые рейтинги университетов: https://www.kaggle.com/mylesoneill/world-university-rankings

[18] Обнаружение мошенничества с кредитными картами: https://www.kaggle.com/mlg-ulb/creditcardfraud

[19] Датасет болезней сердца: https://www.kaggle.com/ronitf/heart-disease-uci

[20] Европейская футбольная база: https://www.kaggle.com/hugomathien/soccer

[21] Винные обзоры: https://www.kaggle.com/zynicide/wine-reviews

[22] Baidu Apolloscapes: http://apolloscape.auto/

[23] Comma.ai: https://archive.org/details/comma-dataset

[24] Распознавание цветов: https://www.kaggle.com/alxmamaev/flowers-recognition

[25] Ежедневная рыночная цена каждой криптовалюты: https://www.kaggle.com/jessevent/all-crypto-currencies

[26] Шоколадный рейтинг: https://www.kaggle.com/rtatman/chocolate-bar-ratings

[27] Рынок медицинского страхования: https://www.kaggle.com/hhs/health-insurance-marketplace

[28] Звуки сердцебиения: https://www.kaggle.com/kinguistics/heartbeat-sounds

[29] База данных аниме рекомендаций: https://www.kaggle.com/CooperUnion/anime-recommendations-database

[30] Изображения клеток крови: https://www.kaggle.com/paultimothymooney/blood-cells

[31] Рентгенография грудной клетки: https://www.kaggle.com/nih-chest-xrays/data

[32] Отчеты об убийствах, 1980-2014 гг.: https://www.kaggle.com/murderaccountability/homicide-reports

[33] База данных подержанных автомобилей: https://www.kaggle.com/orgesleka/used-cars-database

[34] Дом открытых данных правительства США: https://www.data.gov/

[35] Национальный центр: https://www.cdc.gov/chronicdisease/data/index.htm

[36] Крупнейший: https://www.ukdataservice.ac.uk/

[37] EconData: http://inforumweb.umd.edu/econdata/econdata.html

[38] Центр исследования побережья: http://zoo.ucsd.edu/

[39] Набор данных цифр языка жестов: https://www.kaggle.com/ardamavi/sign-language-digits-dataset

[40] Качество красного вина: https://www.kaggle.com/uciml/red-wine-quality-cortez-et-al-2009

[41] Таблицы: https://www.kaggle.com/birdogd/english-football-premier-league-tables-19682019

[42] HotspotQA Dataset : https://hotpotqa.github.io/

[43] xView: http://xviewdataset.org/#dataset

[44] Labelme: http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php

[45] ImageNet: http://image-net.org/

[46] LSUN.: https://www.yf.io/p/lsun

[47] MS COCO: http://cocodataset.org/#home

[48] COIL100: https://www.kaggle.com/jessicali9530/coil100

[49] Visual Genome: http://visualgenome.org/

[50] Google’s Open Images.: https://ai.googleblog.com/2016/09/introducing-open-images-dataset.html

[51] Labelled Faces: http://vis-www.cs.umass.edu/lfw/

[52] Stanford Dogs Dataset: http://vision.stanford.edu/aditya86/ImageNetDogs/

[53] Indoor Scene Recognition.: http://web.mit.edu/torralba/www/indoor.html

[54] Oxford’s Robotic Car: https://robotcar-dataset.robots.ox.ac.uk/

[55] Cityscape Dataset: https://www.cityscapes-dataset.com/

[56] KUL Belgium Traffic Sign Dataset: http://www.vision.ee.ethz.ch/~timofter/traffic_signs/

[57] LISA Laboratory for Intelligent & Safe Automobiles : http://cvrr.ucsd.edu/LISA/datasets.html

[58] Bosch Small Traffic Light Dataset: https://hci.iwr.uni-heidelberg.de/node/6132

[59] WPI datasets: http://computing.wpi.edu/dataset.html

[60] Berkeley DeepDrive: https://bdd-data.berkeley.edu/

[61] MIMIC-III: https://mimic.physionet.org/

[62] Amazon Reviews: https://snap.stanford.edu/data/web-Amazon.html

[63] Kaggle: https://www.kaggle.com/datasets

[64] Google Dataset Search: https://toolbox.google.com/datasetsearch

[65] свои наборы данных: https://support.google.com/webmasters/thread/1960710

[66] Machine Learning Repository: http://mlr.cs.umass.edu/ml/

[67] VisualData: https://www.visualdata.io/

[68] DATA USA: https://datausa.io/

[69] Телеграме: http://t.me/neurondata

[70] Источник: https://habr.com/ru/post/452392/?utm_source=habrahabr&utm_medium=rss&utm_campaign=452392