- PVSM.RU - https://www.pvsm.ru -
В процессе работы над проектом [1] для открытых данных пришлось изучить множество государственных источников данных. Это и федеральные порталы и муницыпальные ресурсы. Вот наиболее известные источники открытых данных:
У всех этих ресурсов одни и те же болезни. Вот они:
Этого достаточно чтобы отбить желание пользоваться или и данными размещенными на них.
Теперь подробнее по каждому пункту и что с этим делать.
Из статистики по документам data.gov.ru [2] видно что большая часть данных размещены в CSV [5]-формате:
И это огромная проблема. Дело в том что большая часть CSV-файлов имеют невалидный формат. В CSV легко допустить ошибку, а если пользователь не разбирается в стандарте, то вероятность ошибки близка к 100%. И так, какие ошибки встречаются чаще всего:
1 место — лишние кавычки. Это бич всех CSV данных. Неправильная кавычка может сломать весь документ.
Пример: Реестр лицензий на фармацевтическую деятельность Новгородской области [6] первая же строка:
"Фармацевтическая деятельность","ООО ГЕЛИОС"",...
2 место — разное количество колонок в строках данных.
Пример: государственный реестр лекарственных средств [7]
regnumber,regdate,enddate,cancellationdate,nameregcertificate,country,tradename,internationalname,formrelease,stages,barcodes,normativedocumentation,pharmacotherapeuticgroup
П N009886,28.04.2011,,,,"ООО ""Валеант""",Россия,Бронхинол,,~,,"Производство готовой лекарственной формы,Херкель Б.В., Nobelweg 6, 3899 BN Zeewolde, the Netherlands, Нидерланды
",,"П N009886-280411,2011,Бронхинол;
",отхаркивающее средство растительного происхождения
Сопоставляем заголовок и данные, получаем:
regnumber = П N009886
regdate = 28.04.2011
enddate =
cancellationdate =
nameregcertificate =
country = ООО "Валеант"
tradename = Россия
internationalname = Бронхинол
...
80% CSV-файлов приходится править перед использованием. Это не большая проблема для небольших и редко меняющихся наборов данных. Но если набор в сотню тысяч строк и обновляется раз в неделю, то это большая проблема.
Отсюда возникает вопрос, зачем использовать CSV?
Каждая служба публикует данные в произвольном виде.
Например это заголовки колонки из CSV-файла перечня карантинных зон [8]:
"Название карантинного организма",
"Административный район",
"Площадь в пределах установленной карантинной фитосанитарной зоны (га)",
"№ и дата приказа об установлении карантинной фитосанитарной зоны Представление в орган исполнительной власти субъекта РФ (№ и дата письма)",
"Представление в орган исполнительной власти субъекта РФ (№ и дата письма)",
"Решение органа исполнительной власти субъекта РФ о наложении карантина (№ и дата)",
"Территориальное управление"
Геокоординеаты могут быть представлены в виде 2 колонок, в одной колонке через запяую или в GeoJSON.
А вот несколько вариантов представления списков:
"№ 223од от 02.09.2010 № 277од от 29.09.2011 № 136од от 14.10.2009 № 556од от 02.10.2013 № 452од от 19.10.2012"
"4 номера: 3 апартамента, 9 люксов, 2 однокомнатных двухместных улучшенных, 4 одноместных, 37 двухместных номеров"
"OVDPhone": [
{ "PhoneOVD": "(495) 601-05-36" },
{ "PhoneOVD": "(495) 601-05-37" }
]
Ко всему прочему данные разбросаны по раным ресурсам:
Как узнать что это официальные сайты? И почему бы не публиковать данные в одном месте?
Из-за разрозненности данных, нет возможности осуществить поиск по всем государственным источникам открытых данных. Видимо не хватает национального поисковика по открытым данным…
Чтобы использовать данные в своем проекте их нужно скачать. И в дальнейшем самому отслеживать их изменение и актуализировать. Это сопряжено со значительными сложностями для большим наборов данных.
Избежать этих сложностей можно если не скачивать данные, а использовать их через API. Для этого API должен предоставлять такую функциональность, которой было бы достаточно для выполнения любой задачи по работе с данными.
Того API который есть у некоторых ресурсов (например data.mos.ru [4]) не достаточно для полноценной работы с данными. Плюс они не достаточно надежен для использования в реальных проектах.
Все это приводит к тому что открытые данные есть, но судя по количеству скачиваний на data.gov.ru [2] ими пользуются единицы.
Чтобы раскрыть весь потенциал открытых данных они должны быть доступны в максимально удобном для использования виде. Чтобы сразу начать ими пользоваться, а не тратить время на приведение их к корректному виду.
ИМХО, ресурс аналогичный GitHub но для данных дал бы сильный толчок в развитии открытым данным.
Да, есть например data.world [13], но он пока не имеет всей той функциональности которая сделала бы его GitHub'ом для данных. Какими характеристиками должен обладать ресурс:
Уверен что в скором времени такой ресурс появится и открытые данные займут значимое место в жизни каждого человека.
Автор: fiftin
Источник [14]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/otkry-ty-e-danny-e/260591
Ссылки в тексте:
[1] проектом: https://spark.ru/startup/mydataspace
[2] data.gov.ru: http://data.gov.ru
[3] open.gov.ru: http://open.gov.ru
[4] data.mos.ru: http://data.mos.ru
[5] CSV: https://ru.wikipedia.org/wiki/CSV
[6] Реестр лицензий на фармацевтическую деятельность Новгородской области: http://data.gov.ru/opendata/5321028960-licend
[7] государственный реестр лекарственных средств: http://data.gov.ru/opendata/7707778246-grls
[8] перечня карантинных зон: http://data.gov.ru/opendata/7708523530-carantinzone
[9] https://www.magnitogorsk.ru/opendata: https://www.magnitogorsk.ru/opendata
[10] http://opendata.cheladmin.ru: http://opendata.cheladmin.ru
[11] https://minvr.ru/opendata: https://minvr.ru/opendata
[12] http://data.ekburg.ru: http://data.ekburg.ru
[13] data.world: https://data.world
[14] Источник: https://habrahabr.ru/post/331036/
Нажмите здесь для печати.