- PVSM.RU - https://www.pvsm.ru -
ЕГРЮЛ — это государственный реестр юридических лиц, в котором хранятся данные 10 миллионов российских компаний. Управляет справочником ФНС.
Из ЕГРЮЛ мы берем данные организаций для «Подсказок [1]», «Единого клиента [2]» и «Фактора [3]». В статье расскажем, как мы жили до справочника, как получаем к нему доступ и как с ним работаем.
Еще пару лет назад ФНС скрывал ЕГРЮЛ в своих недрах, и данные о компаниях мы собирали где придется.
Для начала купили базу у multistat.ru [4] — это легальный реселлер, который продавал данные ФНС. Проблема в том, что свою базу «Мультистат» отдавал задорого и без обновлений.
Поэтому мы поддерживали актуальность данных с помощью сайтов kartoteka.ru [5] и fedresurs.ru [6]. Выгружать информацию скопом они, конечно же, не давали: в ответ на введенный ИНН или ОГРН показывали только одну карточку компании.
Тогда мы написали скрипт, который генерировал ИННы и запрашивал по ним данные на сайтах-справочниках. Если скрипт находил новое юрлицо или изменение в старом, он забирал обновление.
А в 2015 году ФНС открыл ЕГРЮЛ с обновлениями всем, кто готов платить. Этим налоговая служба убила рынок продажи справочника: раньше база стоила миллионы, а теперь символические, в общем-то, 150 000 ₽. (Есть подозрение, что вырученные деньги только-только окупают инфраструктуру и поддержку.)
Тогда мы подумали: «Ну, теперь заживем!».
Годовой доступ к ЕГРЮЛ стоит 150 000 ₽. (Столько же стоит ЕГРИП — госреестр индивидуальных предпринимателей.)
Вот что нужно было сделать в начале 2018 года, чтобы получить доступ к данным.
Заплатить 150 000 ₽ за один справочник или 300 000 ₽ за два. Инструкция по заполнению платежки — на сайте ФНС [7].
Отправить курьерской службой в ФНС два документа:
В запросе можно выбрать способ доставки доступов — почта или емейл. Мы всегда выбираем емейл, но бывают неожиданности: в 2016 году на адреса домена @hflabs.ru письма ФНС не приходили. В 2017-м проблему исправили, но осадочек остался.
Документы принимают по адресу: 125373, г. Москва, Походный проезд, двлд 3, второй этаж. Налоговая инспекция «МИ ФНС России по ЦОД». В отличие от обычной инспекции, у этой нет номера. В январе мы продлевали доступ к ЕГРЮЛ, и курьер по ошибке отдал документы в соседнюю инспекцию. Пакет чудом дошел куда нужно, но ждать пришлось дольше. Поэтому есть смысл подчеркнуть для курьера, что в адресе номера нет.
Дождаться решения. В течение трех рабочих дней, включая день доставки документов, в ФНС регистрируют входящие письма. В течение пяти рабочих дней рассматривают запрос.
Статус заявки узнаю́т по номеру (495) 913-07-60. У вас спросят:
Получить доступы. Если все в порядке, вы получите по почте или на емейл доступы к ЕГРЮЛ. В аттаче емейла — архив с файлами: PDF c уведомлением на официальном бланке, PDF с логином и паролем, сертификат в файле формата .p12.
Даже если заказываешь доступы по емейл, их все равно продублируют по обычной почте. Именно к физическому письму относится строчка про CD
Итак, доступы в кармане — пора утолять жажду к знаниям.
ЕГРЮЛ представляет собой длиннющую портянку с папками-датами.
Данные из ЕГРЮЛ скачивают с FTP-сервера
В каждой директории лежит zip-архив.
Архивов в директории может быть и несколько
В инструкции по интеграции [9] ФНС пишет, что в каждом архиве хранится до 100 xml-файлов. Мы пересчитывали, цифры верные :)
В каждом xml — до 1000 записей
Каждая запись включает в себя основные атрибуты юрлица:
Из перечисленных атрибутов только ОГРН заполнен у всех, он всегда уникален. С остальными параметрами бывают вариации, даже КПП есть не у всех юрлиц.
Помимо основной информации о юрлице в каждой записи лежит еще кое-что интересное:
Да, филиалы в ЕГРЮЛ — не отдельные записи, а лишь атрибуты.
В первый день каждого года ФНС выкладывает на сервер все, что у нее есть, полную базу юрлиц на текущий момент. Название папок с выгрузками: 01.01.2015_FULL, 01.01.2016_FULL и так далее.
Дальше обновления выходят ежедневно, ФНС складывает их в папки по датам: 02.01.2018, 03.01.2018 и т. д. Если обновление не пришло, ничего страшного: ФНС может пропустить пару деньков, а потом вывалить сразу несколько.
В каждом обновлении — только измененные записи. Если 4 мая ФНС узнала об изменениях в данных юрлица, в течение 1–3 дней они появятся в папке 05.05.2018, 06.05.2018 или 07.05.2018 соответственно. Поэтому актуальные данные о компании всегда лежат в папке с названием, ближайшим к сегодняшнему дню.
Сколько будет архивов в обновлении, заранее неизвестно. Может быть и один. Если очень усредненно, обычно меняют данные где-то 50 000 юрлиц. Однажды, в феврале 2017 года, в обновлении пришла вообще вся база. Насколько можно судить, в ЕГРЮЛ тогда глобально изменились внутренние идентификаторы и элементы структуры, к бизнес-задачам не имеющие отношения.
Казалось бы, получить из ЕГРЮЛ актуальные данные о юрлицах элементарно: берешь полную базу на начало года и применяешь все последующие апдейты. После этого остается каждый день скачивать и накатывать изменения на базу.
Не тут-то было! ФНС строго следит, чтобы разработчики не скучали. Ошибки и костыли в ЕГРЮЛ — отдельная, интересная и богатая тема, достойная целой статьи. Раскроем ее на следующей неделе.
Если нравится парсить сложные справочники, структурировать данные и приводить их к человеческому виду, приходите к нам работать. Сейчас ищем джависта для продукта «Фактор». Зарплата — от 175 000 до 275 000 ₽, подробности — на hh.ru [10].
Автор: DEADStop
Источник [11]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/otkry-ty-e-danny-e/283008
Ссылки в тексте:
[1] Подсказок: https://dadata.ru/suggestions/
[2] Единого клиента: https://hflabs.ru/uniform-client/
[3] Фактора: https://hflabs.ru/factor/
[4] multistat.ru: http://www.multistat.ru/
[5] kartoteka.ru: http://www.kartoteka.ru/
[6] fedresurs.ru: http://www.fedresurs.ru/
[7] на сайте ФНС: https://www.nalog.ru/rn77/service/egrip2/fillingbill/
[8] к административному регламенту (.docx): https://www.nalog.ru/html/sites/www.new.nalog.ru/docs/minfin/pril_minfin5n_150115.docx
[9] В инструкции по интеграции: https://www.nalog.ru/rn77/service/egrip2/egrip_vzayim/
[10] на hh.ru: https://hh.ru/vacancy/25173248
[11] Источник: https://habr.com/post/413891/?utm_campaign=413891
Нажмите здесь для печати.