Собираем плохие данные — 2. 1.5 года спустя, про то как не надо публиковать открытые данные

в 7:06, , рубрики: data mining, Opendata, Блог компании «Информационная культура», открытые данные, плохие данные

Не секрет, что российские органы власти в последнее время декларируют высокую степень открытости, публикуют данные и некоторые из них даже бывают полезными, но так было не всегда и далеко не везде.

Полтора года назад я приводил массу примеров неверного толкования открытых данных. В заметке «Собираем плохие данные» есть несколько примеров, когда за машиночитаемые открытые данные выдавали разделы на сайтах или PDF документы.

При том, что мониторить открытость государственных данных в России дело неблагодарное, и что методрекомендации того же Минэкономразвития — это победа формы над содержанием, но даже в таком раскладе можно было сетовать лишь на то, что госорганам облегчили жизнь по публикации данных, а не усложнили.

Надо ли делать полноценное обследование властей на предмет качества открытости данных — вопрос открытый. Рано или поздно это потребуется сделать даже при том, что займёт много времени.
Но самыми выдающимися примерами можно ознакомится сейчас. Ну и конечно — рейтинги фуфло, антирейтинги рулят. Худших надо знать в лицо.

Рособоронзаказ

Ссылка: xn--80aabycqsgabatek.xn--p1ai/Otkritie_dannie

4 набора данных и их паспорта. Открываем паспорт: xn--80aabycqsgabatek.xn--p1ai/Otkritie_dannie/Pasport_nabora_otkritih_dannih_podvedoms

Написано XML, внутри Excel файл с паспортом. Содержание Excel файла на скриншоте. Внутри ничего нет, ссылок нет. Контактный email на mail.ru, структур данных нет, ссылки не на сайт ведомства, а на сайт их разработчиков типа «roz.sitesoft.ru».

Собираем плохие данные — 2. 1.5 года спустя, про то как не надо публиковать открытые данные - 1

Ространснадзор

Ссылка: www.rostransnadzor.ru/rostrans/pressa

Сразу знаково, что открытые данные на сайте публикует пресс-служба. Мы можем многое интересное узнать о Ротранснадзоре в разделе открытые данные, но почему-то сами данные представлены в виде разделов на сайте, файлов MS Word и Excel. Нет не только перечня опубликованных данных, вообще все размещенное полностью не соответствует ни форме, ни духу, ни целям раскрытия машиночитаемой информации.

ФСИН России

Ссылка: www.fsin.su/opendata

В списке ФСИН 7 наборов данных:

  • 7706562710.1.1 Перечень территориальных органов ФСИН России
  • 7706562710.2.1 Перечень подведомственных организаций
  • 7706562710.3.1 План проведения плановых и внеплановых проверок
  • 7706562710.4.1 Информация о результатах плановых и внеплановых проверок
  • 7706562710.5.1 Статистическая информация
  • 7706562710.6.1 Сведения о вакантных должностях государственной гражданской службы в ФСИН России
  • 7706562710.7.1 Реестры лицензий на конкретные виды деятельности
Собираем плохие данные — 2. 1.5 года спустя, про то как не надо публиковать открытые данные - 2

Из них живой только один, первый. Остальные — это пустые таблички, в которых просто ничего нет — www.fsin.su/opendata/7706562710.2.1/

Федеральное дорожное агентство

Ссылка: rosavtodor.ru/opendata

При том, что они размещают 19 наборов данных и среди наборов есть даже интересные, но даже первый взгляд позволяет оценить качество раскрытия.

В наборе rosavtodor.ru/opendata/7717509757-svoddor данные представлены в XML с набором полей Column1, Column2 и тд. В схеме (структуре) данных, разумеется, ни одно поле не помечено что оно означает.

Итого — формальности соблюдены, смысла чуть больше нуля.

Собираем плохие данные — 2. 1.5 года спустя, про то как не надо публиковать открытые данные - 3

Собираем плохие данные — 2. 1.5 года спустя, про то как не надо публиковать открытые данные - 4

Государственная Фельдъегерская служба

Ссылка: www.gfs.ru/opendata

Данных у службы мало, с людьми она почти не работает и мало кому нужна. Но даже в этом случае, заглянув в набор данных вакансий мы обнаруживаем, что он не обновлялся год и, судя по содержанию, вакансий у ГФС нет. Хотя на самом сайте 3 вакансии есть — www.gfs.ru/kadrovaya-sluzhba/vakansii/vakansii-federalnoj-gosudarstvennoj-grazhdanskoj-sluzhby

Министерство Спорта Российской Федерации

Ссылка: www.minsport.gov.ru

На сайте Минспорта есть ссылка с главной страницы. Ссылка, ожидаемо, выдает сообщение «403. Forbidden». Типа данные есть, даже открытые, но не для нас.

— За пределами остались несколько особо выдающихся ведомств, публикующие файлы MS Word под видом XML файлов, пустышки в виде CSV файлов и не только. О них отдельно и с пристрастием в следующий раз.

Почему складывается такая ситуация? Причин множество. В этом есть вина и Минэкономразвития, и совета по открытым данным, и, самое главное, всей системы государственного управления, имеющей возможности не то чтобы «имитации оргазма», но имитации деятельности в принципе.

Если знаете другие выдающиеся случаи такой имитации — предлагаю всем ими поделиться.

Вопрос ко всем: можем ли мы автоматизировать проверку и выявление наиболее одиозных случаев? Автоматическая проверка схем CSV, XSD? Выявление тех XMLников, которые на самом деле DOC файлы и так далее? Может быть уже есть готовые инструменты с открытым исходным кодом?

И второй вопрос/опрос:

Автор: ibegtin

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js