Астрология и Data mining

в 3:22, , рубрики: data mining, астрология, Вконтакте, социальные сети, метки: , ,

Астрология и Data mining
Как и многие люди технического склада ума, я с крайним недоверием отношусь к астрологии, гороскопам и прочим псевдонаукам. Моё мировозрение пошатнулось когда я от скуки решил изучить влияение времени года в которое рождается человек, на его психические особенности. Оценка психических особенностей производилась по результатам соционического теста из приложения VK, которое насчитывает более 500000 пользователей. Надёжность и валидность теста небольшая, да и вся соционическая модель имеет ряд проблем. Но нам важно другое: понять есть ли хоть какие-то отличия между людьми родившимися в разное время. Объём выборки в полмиллиона человек позволяет надеяться на положительный результат. В ходе исследования ожидалось получить линейную зависимость между продолжительностью светлого времени суток в день рождения человека и его психотипом, но получилось нечто совсем иное.

Вкратце о тесте: есть такая штука базис Юнга, он представляет собой 4 бинарных признака, все возможные комбинации которых образуют 16 психотипов личности. Рассмотрим численность одного из типов в разрезе даты рождения и сразу наложим периоды знаков зодиака.

Астрология и Data mining

Для сравнения общее распределение по всем типам для обоих полов.
Астрология и Data mining

Похоже, что спады и всплески рождаемости не случайны. Быть может авторы приложения сфальсифицировали результаты тестов? Это было бы самым простым объяснением, не смотря на то, что я плохо представляю как это технически возможно и для чего нужно.

Так выглядит распределение рождаемости для всех типов:
Астрология и Data mining

Интересно, что спады и всплески, как правило, наблюдаются одновременно у знаков из одной стихии.
Несколько интересных графиков наложил на зодиакальный круг:
Астрология и Data mining
ENTP ISFJ INFP ISTJ ESTJ
Справа от диаграмм показан баланс стихий для каждого психотипа в разбивке на оба пола.

Знатоки астрологии и соционики могут оценить на сколько возможная корреляция вписывается в теорию, посмотрев на баланс стихий в базисе Юнга и на таблицу отклонений от нормальных значений:
Астрология и Data mining

Под нормальным значением понимается наиболее статистически вероятное количество людей, которое должно было родиться под каждым знаком в случае отсутствия любых корреляций.
Коэффициенты рассчитаны по формуле:

Астрология и Data mining
где,
count — количество людей с заданным типом, полом и знаком;
counttotal — общее количество людей в выборке;
count(zodiac) — общее количество людей с заданным знаком;
count(sex,type) — общее количество людей с заданным типом и полом.

Например, женщины козероги типа ISTJ встречаются в 1.5 чаще, чем если бы тип и знак были не связаны друг с другом. Близнецы с типом ISTJ встречаются на 29% реже.

Из-за ненадёжности источника данных всё вышеизложенное не претендует на то, чтобы называться серьёзным научным исследованием, поэтому не буду углубляться в детали статистической обработки данных. Любой желающий может её повторить используя приложенные файлы или повторить парсинг из первоисточника.
socio_dump.zip
socio.xlsx
corr_map.xlsx

Для сбора, обработки и визуализации информации использовались Ruby, Oracle XE, Tableau Desktop, Excel и Paint.NET.

Итог

Википедия гласит:

С точки зрения современной науки астрология является типичным лженаучным учениеми разновидностью гадательной магии.
Ни один эксперимент, имеющий целью проверить истинность утверждений астрологии, не увенчался успехом. Все усилия, направленные на то, чтобы установить достоверные статистические корреляции между расположением небесных светил в момент рождения человека и какими-либо особенностями его личности или событиями в жизни, пока не дали положительного результата.

Разумеется, Википедия для меня более авторитетна, чем приложение из контакта. Однако, с точки зрения биологии и антропологии я не вижу причин почему фенотип человека не может зависеть от времени года его рождения, как у некоторых животных. Если допустить, что корреляция действительно существует, то видится следующее её объяснение: некоторые особенности психотипа человека формируются в процессе внутриутробного развития под действием годичных гормональных циклов в организме матери и являются результатом адаптации к разным типам сезонной активности людей в древности. Детям, рождавшимся, в разных условиях было необходимо быть готовыми к этим условиям заранее. В этом случае логично предположить, что характер годичной динамики рождаемости будет зависеть от этнического состава популяции, в которой проходит исследование, т.к. разные народности, вероятно, жили по своему календарю. На сколько я знаю, в России никогда не проводились подобные исследования с таким объёмом выборки. Возможно, американские социологи и сторонники типологии MBTI не смогли найти закономерности как раз из-за смешанного состава их аудитории.

PS Не хочу никого ни в чём убедить, и прошу прощения если задел чьи-то атеистические чувства:) Буду очень благодарен если кто-то докажет, что исходные данные сфальсифицированы каким либо способом.

Автор: aoberon

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js