Анализируем странные корреляции

в 10:57, , рубрики: интуиция, математика, Статистика в IT, теория вероятностей

Анализируем странные корреляции

Недавно заметил в ленте фейсбука ссылку на статью с кучей примеров «странных корреляций» как на картинке. Первоисточник оказывается здесь, и там таких примеров штук 20. Решил по-практиковаться в статистике и проверить насколько эти корреляции удивительны на самом деле.

Заинтересованных прошу под кат.

Убираем тренды

Если два показателя всё время растут, то у них будет положительная корреляция, и в этом нет ничего удивительного. Корреляцию нужно мерять по стационарным переменным. Чтобы убрать тренды я построил линейную регрессию от времени по каждому показателю, вычел из фактических данных и проверил корреляцию остатков.

В некоторых случаях корреляция сильно снизилась:

Анализируем странные корреляции

В других – ничего не поменялось:

Анализируем странные корреляции

Значит должно быть что-то ещё!

Кстати, я заметил, что положительных корреляций найдено существенно больше, чем отрицательных. Думаю дело в том, что в базе показателей, которые использовал автор, очень много растущих показателей. Люди вообще очень любят измерять что-то растущее. В результате куча показателей, для которых «остатки от тренда» имеют сильную отрицательную корреляцию, оказались не найдены, так как совпадающий положительный тренд сдвигал корреляцию ближе к нулю.

Какая вообще вероятность получить такую корреляцию случайно?

Вот здесь мы возьмёмся за формулы! У меня получилось, что в среднем в этих переменных по 11 точек и после коррекции на тренды средняя корреляция в районе 70%. Зная корреляцию и количество точек можно получить переменную, которая распределена как t-Стьюдента с числом степеней свободы n-2:

Анализируем странные корреляции

Получаем t=2.98 и вероятность получить такую корреляцию при независимых переменных — порядка 0.77%. Полученная цифра довольно впечатляющая, но вопрос не закрыт!

Причём тут парадокс близнецов?

Вероятность в 0.77% кажется слишком низкой, чтобы верить в случайное совпадение, но интуиция здесь ошибается. Эта ситуация похожа на известный парадокс дней рождения

Вероятность, что два человека родились в один день равна 1/365. Но среди всего 23 человек с 50% вероятностью найдётся пара родившихся в один день. Так происходит, потому что нам не важно какие именно два человека это будут, а среди 23 человек можно составить множество пар.

По же самое происходит и с корреляцией различных показателей, если не важно какие из них будут коррелировать. Две случайных переменных будут сильно коррелировать в одной попытке из 65. Я множаю вероятность на 2, так как корреляция ниже -70% тоже нас интересует.

Анализируем странные корреляции

Но если взять всего лишь 9 случайных переменных (по 11 точек в каждой), то с вероятностью 50% там будет корреляция более 70% или менее – 70%

Анализируем странные корреляции

На практике наверняка пришлось просмотреть намного больше переменных. Очень многие показатели на самом деле могут или должны коррелировать и отфильтровать именно «удивительные» было сложно. Но после статистического анализа видно, что и в найденных показателях нет ничего удивительного. Опять интуиция подводит человека в вопросах оценки вероятностей.

Автор: NNikolay

Источник

Поделиться

* - обязательные к заполнению поля