- Mall Customers Dataset — данные посетителей магазина: id, пол, возраст, доход, рейтинг трат. (Вариант применения: Customer Segmentation Project with Machine Learning)
- Iris Dataset — датасет для новичков, содержащий размеры чашелистиков и лепестков для различных цветков.
- MNIST Dataset — датасет рукописных цифр. 60 000 тренировочных изображений и 10 000 тестовых изображений.
- The Boston Housing DatasetЧитать полностью »
Рубрика «dataset» - 2
52 датасета для тренировочных проектов
2019-12-16 в 13:18, admin, рубрики: data science, dataset, deep learning, edisonsoftware, machine learning, python, Блог компании Edison, машинное обучение, Программирование, Учебный процесс в ITПодборка датасетов для машинного обучения
2019-05-19 в 16:23, admin, рубрики: data mining, dataset, python, анализ данных, данные, искусственный интеллект, машинное обучение, Питон, теги все читаютПривет, читатель!
Перед тобой статья-путеводитель по открытым наборам данных для машинного обучения. В ней я, для начала, соберу подборку интересных и свежих (относительно) датасетов. А бонусом, в конце статьи, прикреплю полезные ссылки по самостоятельному поиску датасетов.
Меньше слов, больше данных.

Подборка датасетов для машинного обучения:
Создаем свой датасет с пришельцами
2018-09-17 в 10:36, admin, рубрики: big data, computer vision, data mining, dataset, deep learning, python, segmentation, машинное обучение, обработка изображений, разметка изображений, фрилансеры
Сегментацией людей с помощью нейронных сетей уже никого не удивишь. Есть много приложений, таких как Sticky Ai, Teleport Live, Instagram, которые позволяют выполнять такую сложную задачу на мобильном телефоне в реалтайме.
Итак, предположим планета Земля столкнулась с внеземными цивилизациями. И от пришельцев из звездной системы Альфа Центавра поступает запрос на разработку нового продукта. Им очень понравилось приложение Sticky Ai, которое позволяет вырезать людей и делать стикеры, поэтому они хотят портировать приложение на свой межгалактический рынок.
Delphi: самый быстрый DataSet (TJvMemoryData, TMemTableEh, TdxMemData, TkbmMemTable)
2018-03-09 в 10:27, admin, рубрики: dataset, Delphi, Программирование, сравнениеВ этой статье я проведу сравнительный анализ DataSet'ов, которые держат данные в оперативной памяти.
Список DataSet'ов
- TJvMemoryData
Разработчик: сообщество JEDI Visual Component Library (JCL + JVCL)
JCL (версия 2.8)
JVCL (версия 3.50)
→ Официальный сайт - TMemTableEh
Разработчик: EhLib
Версия: 9.0.040
→ Официальный сайт - TdxMemData
Разработчик: DevExpress
Версия: 15.2.2
→ Официальный сайт - TkbmMemTable
Разработчки: Components4Developers
Версия: 7.74.00 Professional Edition
→ Официальный сайт
Параметры сравнения DataSet'ов
- Вставка записей
- Сортировка записей
Окружение
| Delphi | 10.2 Tokyo Starter |
| Операционная система | Windows 7 SP1 Ultimate x64 |
| Процессор | Intel Core i5 |
| ОЗУ | 8 Гб |
Тестовые данные
DataSet'ы будут тестироваться на данных, полученных из базы данных Firebird. Для сравнительного анализа я создал в базе данных 100000 записей с различными типами данных:
• целые числа;
• вещественные числа;
• даты;
• строки;
• изображения.
Читать полностью »
Топливо для ИИ: подборка открытых датасетов для машинного обучения
2017-10-06 в 12:20, admin, рубрики: dataset, Блог компании Mail.Ru Group, данные, машинное обучение, обучение, открытые данные, Программирование
Связанные проекты сообщества Open Data (проект Linked Open Data Cloud). Многие датасеты на этой диаграмме могут включать в себя данные, защищенные авторским правом, и они не упоминаются в данной статье
Если вы прямо сейчас не делаете свой ИИ, то другие будут делать его вместо вас для себя. Ничто более не мешает вам создать систему на основе машинного обучения. Есть открытая библиотека глубинного обучения TensorFlow, большое количество алгоритмов для обучения в библиотеке Torch, фреймворк для реализации распределенной обработки неструктурированных и слабоструктурированных данных Spark и множество других инструментов, облегчающих работу.
Добавьте к этому доступность больших вычислительных мощностей, и вы поймете, что для полного счастья не хватает лишь одного ингредиента — данных. Огромное количество данных находится в открытом доступе, однако непросто понять, на какие из открытых датасетов стоит обратить внимание, какие из них годятся для проверки идей, а какие могут быть полезны в качестве средства проверки потенциальных продуктов или их свойств до того, как вы накопите собственные проприетарные данные.
Мы разобрались в этом вопросе и собрали данные по датасетам, удовлетворяющим критериям открытости, востребованности, скорости работы и близости к реальным задачам.
Список доменов с упоминанием «porn», обновляемый ежедневно
2017-09-05 в 19:02, admin, рубрики: dataset, domains, porn, top sites, я пиарюсьЗдравствуйте!
Читать полностью »

