Поисковик Google по датасетам вышел из беты

Поисковик Google по датасетам вышел из беты - 1

Для машинного обучения и научных исследований требуется много данных. В помощь разработчикам и исследователям, Наташа Ной ^[1] с коллегами из исследовательского подразделения Google Research в сентябре 2018 года выпустили ^[2] специализированную поисковую систему Dataset Search ^[3]. 23 января 2020 года поисковик вышел из беты ^[4], с новыми инструментами для лучшей фильтрации поиска и доступом почти к 25 миллионам наборов данных.

Датасеты публикуют в открытом доступе многие учреждения: университеты, государственные организации и лаборатории. Но зачастую их трудно найти с помощью традиционного поиска. Поисковик Dataset Search обрабатывает теги метаданных в формате Schema, тут наборы данных самой разной тематики: от лыжных травм до популяции пингвинов.

Специализированный инструмент предназначен для научного сообщества, Google не получит на нём особой прибыли. Компания говорит, что за год с момента запуска поступили поисковые запросы от «сотен тысяч пользователей».

Очень важно, чтобы наборы данных были доступны для поиска. В самом деле, какой смысл в научных исследованиях или государственной статистике, если данные недоступны или их трудно найти?

Чтобы датасет появился в поисковом индексе, нужно добавить к нему метаданные ^[5]. Многие научные организации оперативно отреагировали на это требование. Например, престижный научный журнал Nature в январе 2020 года изменил свою политику ^[6], и теперь требует от авторов статей предоставлять датасеты обязательно с надлежащими метаданными.

С выходом из бета-версии в поисковик добавлены новые функции, в том числе фильтрация данных по типу (таблицы, изображения, текст и т. д.), по свободной лицензии и по географическому охвату. Движок теперь также доступен с мобильных устройств и имеет расширенные описания датасетов.

Google говорит, что поисковик охватывает почти 25 миллионов наборов данных — это только «часть датасетов в интернете», но всё равно «значительный объём информации». Лучше всего проиндексированы исследования, связанные с науками о земле, биологией и сельским хозяйством, а самые распространённые поисковые запросы — [образование], [погода], [рак], [преступность], [футбол] и [собаки], сообщает Google по итогам бета-тестирования. По открытию государственных датасетов лидируют США с более чем двумя миллионами датасетов онлайн.

Наташа Ной говорит ^[7], что команда сейчас думает о новых функциям, которые могут быть полезны, включая «понимание того, как наборы данных цитируются и повторно используются» и «помощь пользователям в изучении наборов данных в поиске наборов данных, когда точно не знают, что ищут… И, конечно, продолжать расширять корпус».

Поисковик Google по датасетам вышел из беты - 2 Наташа Ной ^[8] — известный в узких кругах программист российского происхождения. Выпускница МГУ им. Ломоносова уже двадцать лет специализируется на разработке семантических поисковых инструментов. Её руководство Ontology 101 Tutorial ^[9] является одним из самых самым цитируемых документов по семантическому вебу. В 2014 году после пятнадцати лет исследований в Стэнфордском университете Наташа согласилась перейти в Google Research на позицию Research Scientist. Поисковик по датасетам — её проект.

Кроме поисковика от Google, есть и другие места, где можно найти датасеты. Вот большая подборка ссылок ^[10] на датасеты по компьютерному зрению, анализу тональности текста, обработке естественного языка, автопилотам, медицинским данным.

В России на датасетах для машинного обучения специализируется «Яндекс». Например, в июле 2019 года компания начала выкладывать в открытый доступ ^[11] наборы данных «Яндекс Толоки» — крупнейшего источника размеченных людьми данных для задач машинного обучения. Здесь есть данные для обучения чат-ботов на русском языке, мнения носителей русского языка о родо-видовых отношениях между словами и другие наборы данных.

Автор: ITSumma

Источник ^[12]

Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/metadanny-e/344497

Ссылки в тексте:

[1] Наташа Ной: https://en.wikipedia.org/wiki/Natasha_Noy

[2] выпустили: https://www.theverge.com/2018/9/5/17822562/google-dataset-search-service-scholar-scientific-journal-open-data-access

[3] Dataset Search: https://datasetsearch.research.google.com/

[4] вышел из беты: https://blog.google/products/search/discovering-millions-datasets-web/

[5] добавить к нему метаданные: https://developers.google.com/search/docs/data-types/dataset

[6] изменил свою политику: https://www.nature.com/articles/s41563-019-0574-2

[7] говорит: https://www.theverge.com/2020/1/23/21078310/google-dataset-search-beta-over-filters-improved-open-source

[8] Наташа Ной: https://www.linkedin.com/in/natashafnoy/

[9] Ontology 101 Tutorial: https://protege.stanford.edu/publications/ontology_development/ontology101.pdf

[10] большая подборка ссылок: https://en.wikipedia.org/wiki/List_of_datasets_for_machine-learning_research

[11] начала выкладывать в открытый доступ: https://habr.com/ru/company/yandex/blog/458326/

[12] Источник: https://habr.com/ru/post/485516/?utm_campaign=485516&utm_source=habrahabr&utm_medium=rss

Нажмите здесь для печати.