Женщины и убийства: есть ли тут взаимосвязь? [часть 2 из 2]

в 11:25, , рубрики: data mining, homicide rate, R, sex ratio, визуализация данных, демография, доверяй но проверяй, карты, научный скепсис, открытые данные, преступность, проверка исследования, соотношение полов

Женщины и убийства: есть ли тут взаимосвязь? [часть 2 из 2] - 1

R код (gist) для воспроизведения всех результатов

В первой части, подхваченный вдохновением и желанием проверить гипотезы сразу, я проанализировал взаимосвязь между соотношением полов и распространенностью убийств в странах Европы. Результаты не подтвердили моих ожиданий. Похоже, что во многом страны Европы напоминают регионы одной страны со своей периферией и своими центрами.

В следующей итерации своего скептицизма, результаты которого вы можете прочитать ниже, я проверяю свою гипотезу на данных американских графств, как и авторы исходной статьи.

Коротко о гипотезе

Если вам лень заглянуть в первую часть статьи, то вот кратко суть. Авторы опубликованного в журнале Human Nature исследования утверждают, что соотношения полов во взрослом населении влияет на распространенность тяжких преступлений (в частности, убийств): чем больше женщин, тем больше и преступлений. Я по-прежнему думаю, что все дело в упущенной переменной — центральность/периферийность (urban/rural) — которая и должна объяснять как повышенную долю женщин в городах, так и большее количество преступлений в них.

Убедительно подтвердить свои догадки на простеньких европейских данных мне не удалось. Попробуем на подробных американских.

Данные

А ларчик просто открывался (с)

Все оказалось гораздо проще, чем можно было ожидать. Конечно, я потратил не один час, блуждая по разным ресурсам (благо по США данных… нам бы так). И вот, когда я все еще рисовал себе сложности и сохранял "на потом" десятки закладок, наткнулся на вот этот замечательный датасет. Датасет свободно скачивается после регистрации и согласия с условиями использования.

Данные как нарочно собраны для подобного рода анализа, что наводит на подозрения в велосипедостроительной специализации авторов исходной статьи. Датасет содержит обширный перечень переменных для графств США за период 2001-2006. Не такие свежие данные, как у авторов, но вряд ли можно ожидать, что human nature меняется за десятилетие. Он содержит все интересующие нас переменные, чтобы беспрепятственно повторить исследование и проверить интересующую нас гипотезу.

Exploratory data analysis

Сперва давайте посмотрим, велики ли различия по ключевым показателям между центральными и периферийными графствами. В нашем датасете есть классификация графств на 9 типов (RuralUrban03, 2003 ERS Rural-Urban Continuum Code). Первые три категории — это городские графства разной численности. Категории 4-9 — сельские, различия в численности населения и удаленности от регионального центра.

Категории графств (скопировано из Codebook к датасету)

Code Description
Metropolitan counties:
1 Counties in metro areas of 1 million population or more
2 Counties in metro areas of 250,000 to 1 million population
3 Counties in metro areas of fewer than 250,000 population
Nonmetropolitan counties:
4 Urban population of 20,000 or more, adjacent to a metro area
5 Urban population of 20,000 or more, not adjacent to a metro area
6 Urban population of 2,500 to 19,999, adjacent to a metro area
7 Urban population of 2,500 to 19,999, not adjacent to a metro area
8 Completely rural or less than 2,500 urban population, adjacent to a metro area
9 Completely rural or less than 2,500 urban population, not adjacent to a metro area

На карте это выглядит так. Кружочками даны столицы штатов (красный) и крупные города (золотой).

Женщины и убийства: есть ли тут взаимосвязь? [часть 2 из 2] - 2

Рисунок 1. Классификация графств по центральности/периферийности.

Поскольку с 9 категориями работать неудобно, в дальнейшем анализе я объединил первые три — в категорию metro, а оставшиеся — в категорию non-metro.

Во-первых, нам интересно, действительно ли соотношение мужчин и женщин отражает результат миграционного закона Равенштейна — действительно ли женщины активнее в миграциях на короткие расстояния, и их больше в городах. Посмотрим на распределения графств по соотношению полов во взрослом возрасте (рис. 2).

Женщины и убийства: есть ли тут взаимосвязь? [часть 2 из 2] - 3

Рисунок 2. Распределение центральных и периферийных графств по соотношению полов во взрослом возрасте.

Отчетливо видно, что среди графств с повышенным соотношением полов (преобладают мужчины) больше периферийных. Медианное значение показателя для периферийных графств 1.039; для центральных 1.016.

Карта по графствам получается очень шумной, поэтому я построил карту по штатам, сравнивая средние значения соотношения полов для центральных и периферийных графств (рис. 3). Практически нет штатов, в которых соотношение полов было бы выше в центральных графствах.

Женщины и убийства: есть ли тут взаимосвязь? [часть 2 из 2] - 4

Рисунок 3. Среднее соотношение полов в центральных графствах в сравнении с периферийным.

Еще одним наглядным результатом миграции всегда выступает медианный возраст населения. В среднем, мигранты всегда моложе местного населения. Поэтому миграция перераспределяет медианный возраст населения, омолаживая центральные территории и ускоряя старение населения в периферии. Разумеется, этому общему правилу находится подтверждение и на американских данных (рис. 4 и 5).

Женщины и убийства: есть ли тут взаимосвязь? [часть 2 из 2] - 5

Рисунок 4. Распределение центральных и периферийных графств по соотношению медианному возрасту населения.

Женщины и убийства: есть ли тут взаимосвязь? [часть 2 из 2] - 6

Рисунок 5. Медианный возраст населения по графствам США.

Для разнообразия, по медианному возрасту населения построил карту по графствам. Она все еще достаточно шумная, но общую закономерность уловить можно.

Наконец, как же обстоит дело с убийствами в городе и на селе? Тут ситуация любопытная (рис. 6).

Женщины и убийства: есть ли тут взаимосвязь? [часть 2 из 2] - 7

Рисунок 6. Распределение центральных и периферийных графств по показателю убийств на 100К населения.

В 2004 году, когда были собраны данные, убийства не произошли в 65.2% периферийных графств и 30.3% центральных графств. При этом, когда преступления все же происходили в периферийных территориях, коэффициент получался довольно высоким за счет малой численности населения провинциальных графств. В целом же, разумеется, в городах убийств больше. Значение третьего квартиля (75%) для городов составляет 55.4, а для провинции 36.7 убийств на 100К населения. Если агрегировать данные по штатам и типу графств (рис. 7), то явно видно, что практически во всех штатах городская преступность выше.

Женщины и убийства: есть ли тут взаимосвязь? [часть 2 из 2] - 8

Рисунок 7. Усредненный коэффициент убийств на 100К населения в центральных графствах в сравнении с периферийным.

Итак, исходные предпосылки подтверждаются данными. Посмотрим, каков будет результат моделирования.

Но сперва давайте еще посмотрим на красивую карту доли чернокожего населения США по графствам (рис. 8), поскольку вслед за авторами мы будем использовать эту переменную в качестве контрольной в моделях.

Женщины и убийства: есть ли тут взаимосвязь? [часть 2 из 2] - 9

Рисунок 8. Доля чернокожего населения по графствам США.

Модели

Итак, моделируем с помощью Пуассоновских регрессий зависимость коэффициента убийств от соотношения полов и прочих дополнительных переменных. Вводим переменные последовательно.

Обозначения переменных в таблице

Лень было менять обозначения. К тому же, они вполне говорящие.

asr — соотношение полов во взрослом возрасте (15-44)
perstpov04 — устойчивая бедность: доля населения графства за чертой бедности не менее 20% по данным 4 последних переписей населения, 1970, 1980, 1990 и 2000
pctblack05 — доля чернокожего населения
southSouth — дамми переменная для южных штатов (Юг в сравнении с Севером)
metroNon-metro — центральность/периферийность (периферия в сравнении центром)
ruralurban03 — 9-ступенчатая классификация центральности/периферийности
unemprate05 — безработица
medianage05 — медианный возраст населения

Таблица 1. Результаты моделирования уровня убийств.

Женщины и убийства: есть ли тут взаимосвязь? [часть 2 из 2] - 10

Результаты моделей 1-4 очень сходны с теми, что приводят авторы статьи в Human Nature. Любопытно тут, пожалуй, то, что при переходе от модели 2 к модели 3 коэффициент при переменной "постоянная бедность" меняет знак. Получается, что доля черного населения объясняет вариацию в бедности.

Нам же интересно сравнить модели 4 и 5. Когда мы вводим центральность/периферийность в качестве контрольной переменной, коэффициент при соотношении полов становится существенно менее негативным. То есть, различия в центральности/периферийности объясняю значительную часть выявленной взаимосвязи между частотой убийств и соотношением полов. Остальные модели не столь интересны, но оставил.

Выводы

Сенсации не произошло. Но, действительно, центральность/периферийность графств почти наполовину ослабляет выявленную авторами взаимосвязь между соотношением полов и уровнем преступности. Прочие проверенные мной дополнительные переменные не имеют столь же значимого эффекта. Так что подозрение мое подтвердилось наполовину. Статус территории значит много, но не нивелирует полностью выявленную взаимосвязь. Однако, без сомнения, авторы исходной статьи упустили одну из ключевых переменных.

Reproducibility

R код (gist) для воспроизведения всех результатов. Гарантированно работает при использованнии R версии 3.3.2 с пакетами по состоянию на 2016-11-10. В случае пакетных несовместимостей, воспользуйтесь пакетом checkpoint, установив соответствующую дату.

Автор: ikashnitsky

Источник


* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js