Как мы участвовали в хакатоне по дата журналистике. Социально значимое: Государству виднее

в 23:10, , рубрики: 2015, 75%, data mining, бурятия, воспитание, госорагны, график, ДТП, инн, интеграция, классификация, компания, контракты, крым, Медиа, минфин, окпд, открытые данные, печатные, Питон, правила, предпринимательство, пропаганда, процедура, рабочий, реестр, Роскомнадзор, роспечать, самопиар, сканы, СМИ, социальные проекты, статьи, субдии, таблица, толерантность, Хакатоны, цена, электронные, метки:

Сегодня закончился «первый» хакатон по дата журналистике. Мы заняли на нём первое место. Проделали огромный объём работы за одни сутки. Я хотел бы рассказать как всё было.

Темой хакатона были финансы российских СМИ. Ежегодно государство поддерживает СМИ, поднимающие в своих материалах социально важные темы. Для этого проводится специальный конкурс. Главным критерием отбора получателей субсидий является «социальная значимость» проекта. Мы решили понять, что скрывается за формулировкой «социальная значимость» и какие темы оказались самыми популярными и «дорогими» в 2015 году.

Забегая вперёд, скажу, что ответ такой:

  • По опросам очень много россиян считают себя патриотами, но государство всё равно даёт больше всего денег на проекты про патриотизм.
  • 2015 год был годом литературы и на него пришлось 70 лет победы, поэтому «год литературы» и «историческая память в топе».
  • Субсидии, по идее, должны даваться на социально значимые проекты, «развитие Крыма», например, не очень в тему.
  • В целом складывается ощущение, что чаще пишут и читают об исторической памяти, чаще вспоминают достижения прошлых лет, в то время как на материалы об инновациях и новых технологиях государство выделяет меньше.

Как мы участвовали в хакатоне по дата журналистике. Социально значимое: Государству виднее - 1

А теперь как мы пришли к этим выводам.

Роспечать публикует каждый год у себя на сайте списки субсидий для электронных СМИ и список субсидий для печатных СМИ. Первый список выглядит так:
Как мы участвовали в хакатоне по дата журналистике. Социально значимое: Государству виднее - 2

У нас есть название организации, название и описание проекта. Для каждой строчки нужно определить группу, к которой относится субсидия и её объём в рублях. С классификацией всё просто: берём список тематик, которые публикует Роспечать и вручную размечаем ориентируясь на описания. Субсидий всего 2-3 сотни, поэтому разметку можно сделать за разумное время. С ценами сложнее: выделяем название издательства, например, «Радиовещательная Компания „Бурятия“», забиваем его в реестр субсидий, скачиваем для найденные записи и в каждой ищем название проекта, например, "Бессмертный полк. Мы помним" и выписываем цену. Для 75% проектов процедура отрабатывает автоматически. С остальными нужно разбираться вручную.
Как мы участвовали в хакатоне по дата журналистике. Социально значимое: Государству виднее - 3

Со списком субсидий для печатных СМИ сложнее. Список выглядит так:
Как мы участвовали в хакатоне по дата журналистике. Социально значимое: Государству виднее - 4

Записей уже около тысячи, поэтому ручная разметка происходит не так бодро. В списке нет названий организаций, а значит просто найти субсидии в реестре не получится. Выход есть: берём реестр СМИ, который публикует Роскомнадзор, он выглядит так:
Как мы участвовали в хакатоне по дата журналистике. Социально значимое: Государству виднее - 5

По названию издания находим ИНН издательства. Искать можно по точному совпадению, покрытие получается хорошее. Дальше вбиваем все эти ИННы в реестр субсидий и скачиваем все результаты. Теперь самое сложное: среди всех записей нужно найти только те, которые соответствуют проектам, фигурирующим в списке Роспечати. Названия проектов есть только в договорах, договоры это пдфы со сканами, автоматически с ними ничего не сделаешь:
Как мы участвовали в хакатоне по дата журналистике. Социально значимое: Государству виднее - 6

Поэтому скачиваем все пдфы просматриваем их вручную и записываем цены в соответствующие ячейки. За 4-5 часов удалось провернуть операцию для 50% записей. В итоге получается две таблицы для электронных и печатных СМИ, в каждой строчке цены и категория. Если что эти таблицы можно скачать их нашего репозитория github.com/alexanderkuk/media-hack/tree/master/data

Дальше получаем график, который я показывал вначале:
Как мы участвовали в хакатоне по дата журналистике. Социально значимое: Государству виднее - 7

И смотрим детализацию для некоторых интересных категорий:
Как мы участвовали в хакатоне по дата журналистике. Социально значимое: Государству виднее - 8

В ходе ручной разметки неизбежно находятся странные проекты, на которые была потрачена куча денег:
Как мы участвовали в хакатоне по дата журналистике. Социально значимое: Государству виднее - 9
Как мы участвовали в хакатоне по дата журналистике. Социально значимое: Государству виднее - 10

Всего вышеописанного нам конечно показалось недостаточно и мы собрали ещё инфу по госконтрактам. На clearspending.ru мы нашли все контракты, в которых есть подстроки «пропаганда», «популяризация», «воспитание» или «имидж». Посмотрели, какие коды ОКПД чаще всего встречаются и немного их обобщили их с помощью реестра кодов:
Как мы участвовали в хакатоне по дата журналистике. Социально значимое: Государству виднее - 11

Затем опять взяли реестр СМИ Роскомнадзора, собрали из него ИННы всех издательств, получилось примерно 32 000 штук, скачали для каждого из них выдачу clearspending.ru и оставили только контракты за 2015 год с одним из отобранных кодов ОКПД. Получилось примерно 3000 контрактов. Дальше их нужно было классифицировать. Мы составили набор простых правил вида:

    u'Инвалидность': [
        u'доступной среды для инвалидов и маломабильных групп',
        u'безбарьерной среды для инвалидов и маломабильных групп',
        u'социальной интеграции'
        ],
    u'Рабочие профессии': [
        u'рабочие профессии',
        
        u'популяризации рабочих профессий',
        ],
    u'Предпринимательство': [
        u'предпринимательство',
        u'молодой предприниматель',
        u'малое и среднее предпринимательство'
    ],
    u'ДТП': [
        u'участников дорожного движения',
        u'дорожно-транспортный травматизм',
        u'о состоянии проезда',
    ],

Прогнали их по всему списку и увидели интересное: в контрактах встречаются заказы на пропаганду толерантности, здорового образа жизни, достижений в сельском хозяйстве, однако большая часть заказных статей СМИ направлена на самопиар государственных органов:
Как мы участвовали в хакатоне по дата журналистике. Социально значимое: Государству виднее - 12

Все наблюдения оформили в виде сайта zina.tilda.ws, код и данные выложили на github.com/alexanderkuk/media-hack

Автор: alexkuku

Источник


* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js