- PVSM.RU - https://www.pvsm.ru -
Для машинного обучения и научных исследований требуется много данных. В помощь разработчикам и исследователям, Наташа Ной [1] с коллегами из исследовательского подразделения Google Research в сентябре 2018 года выпустили [2] специализированную поисковую систему Dataset Search [3]. 23 января 2020 года поисковик вышел из беты [4], с новыми инструментами для лучшей фильтрации поиска и доступом почти к 25 миллионам наборов данных.
Датасеты публикуют в открытом доступе многие учреждения: университеты, государственные организации и лаборатории. Но зачастую их трудно найти с помощью традиционного поиска. Поисковик Dataset Search обрабатывает теги метаданных в формате Schema, тут наборы данных самой разной тематики: от лыжных травм до популяции пингвинов.
Специализированный инструмент предназначен для научного сообщества, Google не получит на нём особой прибыли. Компания говорит, что за год с момента запуска поступили поисковые запросы от «сотен тысяч пользователей».
Очень важно, чтобы наборы данных были доступны для поиска. В самом деле, какой смысл в научных исследованиях или государственной статистике, если данные недоступны или их трудно найти?
Чтобы датасет появился в поисковом индексе, нужно добавить к нему метаданные [5]. Многие научные организации оперативно отреагировали на это требование. Например, престижный научный журнал Nature в январе 2020 года изменил свою политику [6], и теперь требует от авторов статей предоставлять датасеты обязательно с надлежащими метаданными.
С выходом из бета-версии в поисковик добавлены новые функции, в том числе фильтрация данных по типу (таблицы, изображения, текст и т. д.), по свободной лицензии и по географическому охвату. Движок теперь также доступен с мобильных устройств и имеет расширенные описания датасетов.
Google говорит, что поисковик охватывает почти 25 миллионов наборов данных — это только «часть датасетов в интернете», но всё равно «значительный объём информации». Лучше всего проиндексированы исследования, связанные с науками о земле, биологией и сельским хозяйством, а самые распространённые поисковые запросы — [образование], [погода], [рак], [преступность], [футбол] и [собаки], сообщает Google по итогам бета-тестирования. По открытию государственных датасетов лидируют США с более чем двумя миллионами датасетов онлайн.
Наташа Ной говорит [7], что команда сейчас думает о новых функциям, которые могут быть полезны, включая «понимание того, как наборы данных цитируются и повторно используются» и «помощь пользователям в изучении наборов данных в поиске наборов данных, когда точно не знают, что ищут… И, конечно, продолжать расширять корпус».
Наташа Ной [8] — известный в узких кругах программист российского происхождения. Выпускница МГУ им. Ломоносова уже двадцать лет специализируется на разработке семантических поисковых инструментов. Её руководство Ontology 101 Tutorial [9] является одним из самых самым цитируемых документов по семантическому вебу. В 2014 году после пятнадцати лет исследований в Стэнфордском университете Наташа согласилась перейти в Google Research на позицию Research Scientist. Поисковик по датасетам — её проект.
Кроме поисковика от Google, есть и другие места, где можно найти датасеты. Вот большая подборка ссылок [10] на датасеты по компьютерному зрению, анализу тональности текста, обработке естественного языка, автопилотам, медицинским данным.
В России на датасетах для машинного обучения специализируется «Яндекс». Например, в июле 2019 года компания начала выкладывать в открытый доступ [11] наборы данных «Яндекс Толоки» — крупнейшего источника размеченных людьми данных для задач машинного обучения. Здесь есть данные для обучения чат-ботов на русском языке, мнения носителей русского языка о родо-видовых отношениях между словами и другие наборы данных.
Автор: ITSumma
Источник [12]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/metadanny-e/344497
Ссылки в тексте:
[1] Наташа Ной: https://en.wikipedia.org/wiki/Natasha_Noy
[2] выпустили: https://www.theverge.com/2018/9/5/17822562/google-dataset-search-service-scholar-scientific-journal-open-data-access
[3] Dataset Search: https://datasetsearch.research.google.com/
[4] вышел из беты: https://blog.google/products/search/discovering-millions-datasets-web/
[5] добавить к нему метаданные: https://developers.google.com/search/docs/data-types/dataset
[6] изменил свою политику: https://www.nature.com/articles/s41563-019-0574-2
[7] говорит: https://www.theverge.com/2020/1/23/21078310/google-dataset-search-beta-over-filters-improved-open-source
[8] Наташа Ной: https://www.linkedin.com/in/natashafnoy/
[9] Ontology 101 Tutorial: https://protege.stanford.edu/publications/ontology_development/ontology101.pdf
[10] большая подборка ссылок: https://en.wikipedia.org/wiki/List_of_datasets_for_machine-learning_research
[11] начала выкладывать в открытый доступ: https://habr.com/ru/company/yandex/blog/458326/
[12] Источник: https://habr.com/ru/post/485516/?utm_campaign=485516&utm_source=habrahabr&utm_medium=rss
Нажмите здесь для печати.