Эксперимент: собираем справочник подразделений УФМС, выдающих паспорт

в 11:04, , рубрики: data quality, Блог компании HFLabs, качество данных, открытые данные, паспорта, паспортные данные, подсказки при вводе, Разработка веб-сайтов, Разработка под e-commerce, уфмс

Эксперимент: собираем справочник подразделений УФМС, выдающих паспорт - 1

Самое утомительное поле при вводе паспорта — «Кем выдан». Вбивать в форму какое-нибудь «Отделом внутренних дел Медведевского района республики Марий Эл» муторно. Люди злятся, сокращают название как придется, ошибаются.

Было бы здо́рово подсказывать варианты по коду подразделения.

Эксперимент: собираем справочник подразделений УФМС, выдающих паспорт - 2
Давно мечтали о подсказках по подразделениям, выдавшим паспорт

Хорошего справочника нет (но есть плохой)

У нас уже есть подсказки: по адресам, компаниям, банкам, ФИО, емейлам. То есть движок готов, нужны только данные.

Проблема в том, что открытого официального справочника подразделений УФМС попросту нет. Наверняка он существует где-то в недрах ведомств, за семью печатями, но наружу не показывается. Где брать информацию — непонятно.

Постоянно всплывает вот эта база. Но авторство ее неизвестно, а качество данных внутри — низкое, мы проверяли. Еще хуже, что названия подразделений хранятся в именительном падеже, в анкетах же нужен творительный. Если нужно, пользуйтесь этим справочником на здоровье, но мы ни за что не отвечаем.

А хорошие данные все равно приходится где-то искать: у нас каждый день спрашивают подсказки по «Где выдан». Оно и понятно, потому что поле все время встречается в анкетах. В конце концов нам ничего не осталось, кроме как собрать справочник самим. Ну как самим… с помощью зала.

Собираем справочник для всех, красивый и полный

Мы подумали — а чего бы не сделать справочник подразделений УФМС всем вместе. И запустили форму для сбора данных dadata.ru/fix/fms. Идея такая.

  1. Желающие оставляют данные о подразделении, указанном в паспорте. В форме три поля, ничего персонального в этих данных нет.
  2. Мы чистим данные своими инструментами, приводим к единому формату и собираем в .csv.
  3. Готовый справочник выкладываем в открытый доступ.

Чтобы получить итоговый справочник, свои данные можно не оставлять. Поделимся со всеми, забирайте хоть сейчас:

Но если поделитесь подразделением, которое выдало паспорт, приблизите завершение проекта. Окончательный справочник мы отполируем совсем уж до блеска и схлопнем сложные дубли.

О прогрессе отчитаемся

Все это — эксперимент. Мы не знаем, что получится. Может быть, никто просто не поделится данными, тогда из затеи ничего не выйдет. И уж подавно мы не знаем, как долго будем собирать справочник.

Но что точно обязуемся делать, так это отчитываться в твиттере. Каждый день едва ли, но о важных вехах непременно сообщим. Об итогах эксперимента расскажем и здесь тоже.

По нашим прикидкам, в стране меньше 10 000 подразделений, выдающих паспорта. Это совсем немного, в конце-то концов. Давайте попробуем их собрать.

Автор: Максим Пименов

Источник


* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js