Открытые данные Москвы и соревнование API Challenge на их основе

в 7:20, , рубрики: Блог компании НП «Информационная культура», Москва, открытые данные, электронное правительство, метки: ,

По моему опыту общения с разработчиками которые когда-либо участвовали в соревнования по открытым данным — все они говорят о том что нужны данные как можно большего уровня детализации.

Например, не статистика по регионам, а статистика по муниципалитетам. Не сводка преступлений/ДТП, а информация с адресами и координатами.
Не просто адреса учреждений с координатами, а подробная информация о каждом.

Пока таких детальных данных, прямо скажем, в удобном виде немного. Если взять Москву как пример, то даже на московском портале data.mos.ru большая часть данных — это геоданные или данные с геопривязкой в виде адреса и какой-то еще минимальной информацией. Понятное дело что сделать с ними что-то действительно интересное сложно. Поэтому скажем спасибо Правительству Москвы за то что они хотя бы это раскрыли и попробуем понять где взять более интересные данные и что с ними делать.

Конкурсы и соревнования

На вопрос зачем это нужно отвечу сразу — невозможно провести ни один конкурс/хакатон/соревнование для разработчиков не имея достаточного количества интересных данных. С этим мы сталкивались на хакатоне Яндекса, прошедшем конкурсе Apps4Russia и многих других.

Поэтому сейчас, поскольку мы помогаем в подготовке конкурса API Challenge мы решили подготовить столько полезных данных сколько только возможно. А поскольку API Challenge — это конкурс идущий от власти Москвы и ориентированный на Москву — мы и данные собираем по Москве.
Открытые данные Москвы и соревнование API Challenge на их основе

Чтобы этого добиться мы начали просматривать десятки госсайтов и ищем на них то что можно использовать законно и с пользой.

Как это происходило и продолжается


Вначале необходимо понять где данные искать. Универсальная формула заключается в 4-х направлениях.

  1. Официальные сайты органов власти
  2. Сайты территориальных подразделений федеральных органов (ФСИН, Минюст, МВД и др)
  3. Сайты госпредприятий и регулируемых государством монополий
  4. Сайты муниципальных образований

Последний пункт к Москве относится слабо и то лишь к новым территориям, а вот все остальные вполне существуют и доступны.

Сайты всех департаментов мы просмотрели найдя их список на www.mos.ru интересных данных там не то чтобы мало, но мало. Часть данных из того что у них есть уже опубликованы на data.mos.ru, а другие требуют существенных усилий по извлечению их из PDF документов, например, доклады Мосэкомониторинга — это большие PDF документы которые кроме как вручную в данные не переведешь.

Далее по сайтам территориальных управлений федеральной власти. В Москве, как и во всех регионах, есть представительства большого числа федеральных органов поскольку у нас в стране многие функции власти разделены между федеральной властью и регионами. В частности МВД относится к федеральной власти, ФСИН, Служба судебных приставов, Прокуратура и многое другое. Мы просмотрели множество их сайтов найдя их список вначале на сайте Правительства РФ, а далее проходя по каждому и находя раздел по Москве.

И, наконец, данные по госпредприятиям и регулируемым корпорациям самые сложные в плане возможности их использования. Дело в том что естевенные обязаны публиковать многие данные согласно приказам ФАС и ФТС и эти данные только Public Domain, на них нет ограничений. Обычно эти разделы на сайтах называются «Раскрытие информации». По другой же информации на их сайтах нет однозначной юридической чистоты/понимания — тут нужна политика города в регулировании её открытости. Тем не менее для соревнования разработчиков такие данные вполне подходят в случае их высокой общественной ценности.

Что мы нашли

Я буду перечислять данные сразу со ссылками на массивы которые мы извлекли и которые можно скачать и сразу использовать.
Все данные что мы собираем мы выкладываем на наш Хаб открытых данных. Это открытый некоммерческий проект сделанный по аналогии thedatahub.io у Open Knowledge Foundation. Все что на нем размещается будет открытым всегда и портал позволяет желающим выгрузить хоть все данные через CKAN API.

Реестр адвокатов

Эти данные размещены на сайте Минюста России — управления по Москве.

Мы выкачали их и преобразовали в JSON, CSV и XLS с нормализованными полями. Теперь данные можно скачать здесь — http://hubofdata.ru/dataset/mosadv

Реестр нотариусов

Данные, опять же, с сайта Минюста.
С ними ровно та же история — это XLS файл изначально, мы просто выкачали его, обработали в OpenRefine и преобразовали в JSON, CSV и выложили вот тут — http://hubofdata.ru/dataset/mos-notary

Тюрьмы Москвы

Совсем небольшой список тюрем размещен на сайте ФСИН по Москве — http://www.77.fsin.su/structure/
Очень простым парсером он был превращен во все те же форматы JSON, CSV, XLS и размещен здесь — http://hubofdata.ru/dataset/mos-prisons

Контакты подразделений Мосгаза по улицам

Если предыдущие 3 массива относились к государственным данным у федеральных органов власти, то следующий массив — это данные по контактам Мосгаза который является предприятием на территории Москвы и регулируемым законами и распоряжениями о раскрытии информации.

У Мосгаза есть раздел в котором можно введя улицу узнать контакты его подразделений. Вот он http://www.mos-gaz.ru/services/territory/

Поскольку внутри этого раздела оказался довольно простой AJAX код — получилось в короткие сроки извлечь все контакты и все подразделения и мы выложили большой массив контактов http://hubofdata.ru/dataset/mosgaz-contacts в котором есть файлы с привязкой улиц к районам и файлы с привязкой подразделений к районам.

Адреса ТЭЦ, ГЭС и ГРЭС Мосэнерго

На сайте Мосэнерго, одной из естественных монополий Москвы, есть адреса их ТЭЦ, ГЭС и ГРЭС — http://www.mosenergo.ru/catalog/228.aspx список этот весьма невелик, но полезен для всех кто такими данными интересуется.

Его было легко распарсить и выложить вот тут — http://hubofdata.ru/dataset/mosenergo-filials. Эти данные полезны для всех кто решит делать приложения по экологической обстановке в Москве и, сразу скажу, мы успели пока обработать не все данные Мосэнерго. У них много публичных отчетов в разделе "Статистический отчет по форме «2ТП-воздух» там много данных в XLS формате по каждой из станций о том сколько они выбрасывают отходов. Возможно кто-то будет готов их собрать и свести вместе.

Адреса и характеристики отделений Почты России

Почта России — это не орган власти, но госпредприятие часто критикуемое в виду качества работы. Данные по отделениям у них есть, в частности они публикуют их на нескольких своих сайтах основной из которых — это их сайт.

Мы вытащили данные по их отделениям по Москве с информацией по координатам их нахождения, адресам, индексам, времени работы и так далее. Эти данные никак не удалось упаковать в CSV простым образом, так что они доступны цельным JSON файлом http://hubofdata.ru/dataset/ruspost-msk

Жалобы на шум

На сайте упомянутого ранее Мосэкомониторинга обнаружился небольшой, но любопытный массив данных жалоб жителей города на шум. Вот тут http://www.mosecom.ru/noise/territ/noise_stroy_pl_2013.php собраны эти жалобы и они даже имеют информацию об адресе, а то есть могут быть наложены на карты при желании.

Эти данные мы тоже вытащили парсером и выложили на хаб — http://hubofdata.ru/dataset/msk-noise-req

Адреса некоммерческих организаций

А вот и пошли самые большие массивы данных. В данном случае мы заглянули на сайте Минюста и нашли что в реестре некоммерческих организаций их можно получить по региону. Вот тут — http://unro.minjust.ru/NKOs.aspx.
На самом деле мы сделали это еще давно, в начале этого года, и данные «пылились на полке». Теперь мы их преобразовали в удобные для работы форматы и выложили на хабе — http://hubofdata.ru/dataset/mos-nko-2013

Обратите внимание что данные разбиты на виды организаций. На случай если Вы захотите поработать отдельно над религиозными организациями и отдельно над остальными.

Базы домов Москвы с привязкой к избирательным округам и с датами постройки

И, наконец, данные которые могут пригодится более всего. На нескольких сайтах обнаружились подробные данные по каждому дому в Москве. Это такие сайты как dom.mos.ru, gorod.mos.ru, reformazhkh.ru, mosgorizbirkom.ru и еще ряде других.

Мы не успели пока обработать их все и осуществить мечту по сведению всех данных по домам в единую базу, но сделали первый шаг — разобрали несколько баз и сделали возможным дальнейшее их объединение.

Сейчас доступны:

  • База всех домов с привязкой к УИКам — http://hubofdata.ru/dataset/mos-elect-houses по кадому УИКу много дополнительной информации и информации по месту голосования
  • База дат постройки домов — http://hubofdata.ru/dataset/mos-buildings-years при том что на сайте, на самом деле, куда больше информации по каждому дому, мы собрали пока даты постройки и надеемся что найдутся желающие помочь собрать все данные

Это, конечно же, не всё. Данных больше и мы регулярно будем выкладывать их на хаб.
На github'е выложен весь код скриптов что мы используем https://github.com/infoculture/mosopendata

В качестве резюме что выводы и предложения:

  1. Все что мы сейчас собираем и парсем по Москве мы предложим чиновникам из ДИТа раскрывать официально. Я думаю что они не откажутся, благо данные уже ясно где искать. Во всяком случае в тех данных которые в ведении московских властей, вот с федеральными — придется запрашивать федеральные органы что дольше.
  2. Вы вполне можете проделать то же самое в своём любимом регионе или городе и сделать портал открытых данных города или загрузить к нам на хаб или еще куда-либо для общего доступа.
  3. Участвуйте в конкурсах и соревнованиях. И в том что я привел выше, и во всех что будут. Это не только возможность опробовать свои навыки, но и получить весомый приз.

Автор: ibegtin

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js