- PVSM.RU - https://www.pvsm.ru -

52 датасета для тренировочных проектов

  1. Mall Customers Dataset [1] — данные посетителей магазина: id, пол, возраст, доход, рейтинг трат. (Вариант применения: Customer Segmentation Project with Machine Learning [2])
  2. Iris Dataset [3] — датасет для новичков, содержащий размеры чашелистиков и лепестков для различных цветков.
  3. MNIST Dataset [4] — датасет рукописных цифр. 60 000 тренировочных изображений и 10 000 тестовых изображений.
  4. The Boston Housing Dataset [5] — популярный датасет для распознавания паттернов. Содержит информацию о домах в Бостоне: количество квартир, стоимость аренды, индекс преступлений.
  5. Fake News Detection Dataset [6] — содержит 7796 записей с разметкой новостей: правда или ложь. (Вариант применения с исходником на Python: Fake News Detection Python Project [7])
  6. Wine quality dataset [8] — содержит информацию о вине: 4898 записей с 14 параметрами.
  7. SOCR data – Heights and Weights Dataset [9] — хороший вариант для старта. Содержит 25 000 записей о росте и весе 18-ти летних людей.

    EDISON Software - web-development [10]
    Статья переведена при поддержке компании EDISON Software, которая выполняет «на отлично» заказы из Южного Китая [11], а также разрабатывает веб-приложения и сайты [12].

  8. Parkinson Dataset [13] — 195 записей о пациентах с болезнью Паркинсона, с 25 параметрами анализов. Можно использовать для предварительной оценки отличия больных людей от здоровых. (Вариант применения с исходником на Python: Machine Learning Project on Detecting Parkinson’s Disease [14])
  9. Titanic Dataset [15] — содержит информацию про пассажиров (возраст, пол, родственники на борту и пр) 891 в тренировочном сете и 418 — в тестовом.
  10. Uber Pickups Dataset [16] — информация о 4.5 миллионах поездок на Uber 2014 года и 14 млн. 2015 года. (Вариант применения с исходником на R: Uber Data Analysis Project in R [17])
  11. Chars74k Dataset [18] — содержит изображения Британских и Канадских символов 64 классов: 0-9, A-Z, a-z. 7700 7.7k естественных изображений, 3400kнаписанных от руки, 62000 синтезированных компьютером шрифтов.
  12. Credit Card Fraud Detection Dataset [19] — содержит информацию о транзакциях скомпрометированных кредитных картах. (Вариант применения с исходником: Credit Card Fraud Detection Machine Learning Project [20])
  13. Chatbot Intents Dataset [21] — JSON-файл, который содержит различные тэги: greetings, goodbye, hospital_search, pharmacy_search, и тд. Содержит набор шаблонов «вопрос-ответ». (Вариант применения с исходником на Python: Chatbot Project in Python [22])
  14. Enron Email Dataset [23] — содержит пол миллиона писем от 150 менеджеров Enron.
  15. The Yelp Dataset [24] — содержит 1,2 млн. рекомендаций от 1,6 млн. пользователей про 1,2 млн организаций.
  16. Jeopardy Dataset [25] — более 200 000 записей «вопрос-ответ» из популярной телевизионной игры.
  17. Recommender Systems Dataset [26] — портал с коллекцией датасетов от университета UCSD. Содержит записи об отзывах на популярных сайтах (Goodreads, Amazon). Отлично подходит для создания рекомендательных систем. (Вариант применения с исходником на R: Movie Recommendation System Project in R [27] )
  18. UCI Spambase Dataset [28] — датасет для тренировки для обнаружения спама. Содержит 4601 писем с 57 параметрами метаданных.
  19. Flickr 30k Dataset [29] — более 30 000 изображений и подписей к ним. (Flickr 8k Dataset [30] — 8000 изображений. Проект с исходником на Python: Image Caption Generator Python Project [31])
  20. IMDB reviews [32] — 25 000 отзывов на фильмы в тренировочном наборе и 25 000 в тестовом. (Вариант применения с исходником на R: Sentiment Analysis Data Science Project [33])
  21. MS COCO dataset [34] — 1,5 млн размеченных изображений.
  22. CIFAR-10 and CIFAR-100 dataset [35] — CIFAR-10 содержит 60,000 маленьких изображений 32*32 pixels цифр 0-9. CIFAR-100 — соответственно, 0-100.
  23. GTSRB (German traffic sign recognition benchmark) Dataset [36] — 50 000 изображений 43 дорожных знаков. (Вариант применения с исходником на Python: Traffic Signs Recognition Python Project [37])
  24. ImageNet dataset [38] — содержит более 100 000 фраз и около 1000 изображений на фразу.
  25. Breast Histopathology Images Dataset [39] — датасет содержит изображения образцов рака молочной железы. (Вариант применения с исходником на Breast Cancer Classification Python Project [40])
  26. Cityscapes Dataset [41] — содержит высококачественные аннотации видеопоследовательностей улиц разных городов.
  27. Kinetics Dataset [42] — содержит URL-ссылку на около 6,5 миллионов высококачественных видео.
  28. MPII human pose dataset [43] — датасет содержит 25 000 изображений человеческих поз с аннотацией по суставам.
  29. 20BN-something-something dataset v2 [44] — набор высококачественных видео, которые показывают, как человек выполняет какие-то действия.
  30. Object 365 Dataset [45] — датасет высококачественных изображений с ограничивающими рамками объектов.
  31. Photo sketching dataset [46] — содержит более 1000 изображений с их контурными чертежами.
  32. CQ500 Dataset [47] — датасет содержит 491 КТ-сканирование головы с 193 317 срезами.
  33. IMDB-Wiki dataset [48] — датасет с более чем 5 млн. изображений лиц с пометкой пола и возраста. (Вариант применения с исходником на Gender & Age Detection Python Project [49])
  34. Youtube 8M Dataset [50] — маркированный набор данных видео, который содержит 6,1 миллиона идентификаторов видео Youtube
  35. Urban Sound 8K dataset [51] — набор городских звуковых данных (содержит 8732 городских звука из 10 классов).
  36. LSUN Dataset [52] — набор данных из миллионов цветных изображений сцен и объектов (около 59 миллионов изображений, 10 различных категорий сцен и 20 различных категорий объектов).
  37. RAVDESS Dataset [53] — аудиовизуальная база данных эмоциональной речи. (Вариант применения с исходником на Speech Emotion Recognition Python Project [54])
  38. Librispeech Dataset [55] — датасет содержит 1000 часов английской речи с разными акцентами.
  39. Baidu Apolloscape Dataset [56] — датасет для развития технологий самостоятельного вождения.
  40. Quandl Data Portal [57] — хранилище экономических и финансовых данных (есть бесплатный и платный контент).
  41. The World Bank Open Data Portal [58] — информация о займах, выданных Всемирным банком развивающимся странам.
  42. IMF Data Portal [59] — портал международного валютного фонда, который публикует данные о международных финансах, ставках долга, инвестициях, валютных резервах и товарах.
  43. American Economic Association (AEA) Data Portal [60] — ресурс для поиска макроэкономических данных США.
  44. Google Trends Data Portal [61] — данные о тенденциях Google можно использовать для визуального изучения и анализа данных.
  45. Financial Times Market Data Portal [62] — ресурс для получения актуальной информации о финансовых рынках со всего мира.
  46. Data.gov Portal [63] — портал открытых данных правительства США (сельское хозяйство, здравоохранение, климат, образование, энергетика, финансы, наука и исследования и т.д.).
  47. Data Portal: Open government data (India) [64] — открытая правительственная платформа данных Индии.
  48. Food environment Atlas Data Portal [65] — содержит данные исследований о питании в США.
  49. Health Data Portal [66] — это портал Министерства здравоохранения и социальных служб США.
  50. Centers for Disease Control and Prevention Data Portal [67] — содержит широкий спектр данных, связанных со здоровьем.
  51. London Datastore Portal [68] — данные о жизни людей в Лондоне.
  52. Canada Government Open Data Portal [69] — портал открытых данных о канадцах (сельское хозяйство, искусство, музыка, образование, правительство, здравоохранение и т.д.)

Автор: rishat_edison

Источник [70]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/python/340158

Ссылки в тексте:

[1] Mall Customers Dataset: https://www.kaggle.com/shwetabh123/mall-customers

[2] Customer Segmentation Project with Machine Learning: https://data-flair.training/blogs/r-data-science-project-customer-segmentation/

[3] Iris Dataset: https://archive.ics.uci.edu/ml/datasets/Iris

[4] MNIST Dataset: http://yann.lecun.com/exdb/mnist/

[5] The Boston Housing Dataset: https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html

[6] Fake News Detection Dataset: https://www.kaggle.com/c/fake-news/data

[7] Fake News Detection Python Project : https://data-flair.training/blogs/advanced-python-project-detecting-fake-news/

[8] Wine quality dataset: https://archive.ics.uci.edu/ml/datasets/wine+quality

[9] SOCR data – Heights and Weights Dataset: http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_Dinov_020108_HeightsWeights

[10] Image: https://www.edsd.ru/

[11] выполняет «на отлично» заказы из Южного Китая: https://www.edsd.ru/ru/o_kompanii/novosti/desyat-plyusov-edison

[12] разрабатывает веб-приложения и сайты: https://www.edsd.ru/ru/proekty/sozdaniye_saytov

[13] Parkinson Dataset: https://archive.ics.uci.edu/ml/datasets/parkinsons

[14] Machine Learning Project on Detecting Parkinson’s Disease: https://data-flair.training/blogs/python-machine-learning-project-detecting-parkinson-disease/

[15] Titanic Dataset: https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/problem12.html

[16] Uber Pickups Dataset: https://www.kaggle.com/fivethirtyeight/uber-pickups-in-new-york-city

[17] Uber Data Analysis Project in R: https://data-flair.training/blogs/r-data-science-project-uber-data-analysis/

[18] Chars74k Dataset: http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/

[19] Credit Card Fraud Detection Dataset: https://www.kaggle.com/mlg-ulb/creditcardfraud

[20] Credit Card Fraud Detection Machine Learning Project: https://data-flair.training/blogs/data-science-machine-learning-project-credit-card-fraud-detection/

[21] Chatbot Intents Dataset: https://github.com/katanaml/katana-assistant/blob/master/mlbackend/intents.json

[22] Chatbot Project in Python: https://data-flair.training/blogs/python-chatbot-project/

[23] Enron Email Dataset: https://www.cs.cmu.edu/~enron/

[24] The Yelp Dataset: https://www.yelp.com/dataset

[25] Jeopardy Dataset: https://www.reddit.com/r/datasets/comments/1uyd0t/200000_jeopardy_questions_in_a_json_file/

[26] Recommender Systems Dataset: https://cseweb.ucsd.edu/~jmcauley/datasets.html

[27] Movie Recommendation System Project in R: https://data-flair.training/blogs/data-science-r-movie-recommendation/

[28] UCI Spambase Dataset: https://archive.ics.uci.edu/ml/datasets/Spambase

[29] Flickr 30k Dataset: https://www.kaggle.com/hsankesara/flickr-image-dataset

[30] Flickr 8k Dataset: https://forms.illinois.edu/sec/1713398

[31] Image Caption Generator Python Project: https://data-flair.training/blogs/python-based-project-image-caption-generator-cnn/

[32] IMDB reviews: http://ai.stanford.edu/~amaas/data/sentiment/

[33] Sentiment Analysis Data Science Project: https://data-flair.training/blogs/data-science-r-sentiment-analysis-project/

[34] MS COCO dataset: http://cocodataset.org/#home

[35] CIFAR-10 and CIFAR-100 dataset: https://www.cs.toronto.edu/~kriz/cifar.html

[36] GTSRB (German traffic sign recognition benchmark) Dataset: http://benchmark.ini.rub.de/?section=gtsrb&subsection=dataset

[37] Traffic Signs Recognition Python Project: https://data-flair.training/blogs/python-project-traffic-signs-recognition/

[38] ImageNet dataset: http://www.image-net.org/

[39] Breast Histopathology Images Dataset: https://www.kaggle.com/paultimothymooney/breast-histopathology-images

[40] Breast Cancer Classification Python Project: https://data-flair.training/blogs/project-in-python-breast-cancer-classification/

[41] Cityscapes Dataset: https://www.cityscapes-dataset.com/

[42] Kinetics Dataset: https://deepmind.com/research/open-source/kinetics

[43] MPII human pose dataset: http://human-pose.mpi-inf.mpg.de/#

[44] 20BN-something-something dataset v2: https://20bn.com/datasets/something-something/v2

[45] Object 365 Dataset: https://www.objects365.org/overview.html

[46] Photo sketching dataset: http://www.cs.cmu.edu/~mengtial/proj/sketch/

[47] CQ500 Dataset: http://headctstudy.qure.ai/#dataset

[48] IMDB-Wiki dataset: https://data.vision.ee.ethz.ch/cvl/rrothe/imdb-wiki/

[49] Gender & Age Detection Python Project: https://data-flair.training/blogs/python-project-gender-age-detection/

[50] Youtube 8M Dataset: https://research.google.com/youtube8m/

[51] Urban Sound 8K dataset: https://urbansounddataset.weebly.com/urbansound8k.html

[52] LSUN Dataset: https://www.yf.io/p/lsun

[53] RAVDESS Dataset: https://zenodo.org/record/1188976#.Xc-P7VczbIU

[54] Speech Emotion Recognition Python Project: https://data-flair.training/blogs/python-mini-project-speech-emotion-recognition/

[55] Librispeech Dataset: http://www.openslr.org/12

[56] Baidu Apolloscape Dataset: http://apolloscape.auto/

[57] Quandl Data Portal: https://www.quandl.com/

[58] The World Bank Open Data Portal: https://data.worldbank.org/

[59] IMF Data Portal: https://www.imf.org/en/Data

[60] American Economic Association (AEA) Data Portal: https://www.aeaweb.org/resources/data

[61] Google Trends Data Portal: https://trends.google.com/trends/

[62] Financial Times Market Data Portal: https://markets.ft.com/data/

[63] Data.gov Portal: https://www.data.gov/

[64] Data Portal: Open government data (India): https://data.gov.in/

[65] Food environment Atlas Data Portal: https://catalog.data.gov/dataset/food-environment-atlas-f4a22

[66] Health Data Portal: https://healthdata.gov/

[67] Centers for Disease Control and Prevention Data Portal: https://www.cdc.gov/datastatistics/

[68] London Datastore Portal: https://data.london.gov.uk/

[69] Canada Government Open Data Portal: https://open.canada.ca/en/open-data

[70] Источник: https://habr.com/ru/post/480408/?utm_campaign=480408&utm_source=habrahabr&utm_medium=rss