Лженаука. Верить ли научным статьям по психологии

Лженаука. Верить ли научным статьям по психологии - 1
Уровень значимости и p-значение в математической статистике

С каждым годом растёт количество публикаций в научных журналах, в том числе публикаций по гуманитарным наукам. Согласно определению Бахтина ^[1], «предмет гуманитарных наук — выразительное и говорящее бытие. Это бытие никогда не совпадает с самим собой и потому неисчерпаемо в своем смысле и значении».

Неисчерпаемость смысла и значения бытия не мешает анализировать результаты научных исследований статистическими методами. В частности, выводы в исследованиях по экспериментальной психологии часто являются результатом тестирования значимости нулевой гипотезы.

Но есть большое подозрение, что авторы некоторых научных работ не очень сильны в математике.

Статистическая гипотеза — утверждение относительно неизвестного параметра генеральной совокупности на основе выборочного исследования. Для обоснования заключения необходимо тестирование результатов, на которых строится гипотеза, на статистическую достоверность. Надёжность определяется тем, насколько вероятно, что обнаруженная в выборке связь подтвердится на другой выборке той же генеральной совокупности. Очевидно, что провести исследование на все выборке практически невозможно, а провести многократное исследование на разных выборках очень трудно. Поэтому широко используются методы статистики. Они позволяют оценить вероятность случайного получения такого различия при условии, что на самом деле различий в генеральной совокупности нет.

Нулевая гипотеза (null hypothesis) — гипотеза об отсутствии различий (утверждение об отсутствии различий в значениях или об отсутствии связи в генеральной совокупности). Согласно нулевой гипотезе, различие между значениями недостаточно значительно, а независимая переменная не оказывает никакого влияния.

В современных научных работах нулевые гипотезы часто проверяют с использованием p-значения ^[2]. Эта величина равна вероятности того, что случайная величина с данным распределением примет значение, не меньшее, чем фактическое значение тестовой статистики.

Например, уровень значимости 0,05 означает, что допускается не более чем 5%-ая вероятность ошибки. Другими словами, нулевую гипотезу можно отвергнуть в пользу альтернативной гипотезы, если по результатам статистического теста вероятность случайного возникновения обнаруженного различия не превышает 5%, т.е. p-значение не превышает 0,05. Если же этот уровень значимости не достигается (вероятность ошибки выше 5%), считают, что разница вполне может быть случайной и поэтому нельзя отклонить нулевую гипотезу. Таким образом, p-значение соответствует риску совершения ошибки первого рода (отклонения истинной нулевой гипотезы).

Использование p-значений для проверки нулевых гипотез в работах по медицине подвергается критике со стороны многих специалистов. Более того, в 2015 году один из научных журналов — Basic and Applied Social Psychology (BASP) — вовсе запретил публикацию статей, в которых используются p-значения. Журнал объяснил своё решение тем, что сделать исследование, в котором получено p < 0,05 не очень сложно, и такие значения p слишком часто становятся оправданием для низкопробных исследований. На практике использование p-значений нередко приводит к статистическим ошибкам первого рода — ошибкам обнаружить различия или связи, которые на самом деле не существуют.

Лженаука. Верить ли научным статьям по психологии - 2 В 2015 году немало шуму наделала статья студентки из университета Тилбурга Мишель Нюйтен ^[3] с коллегами, опубликованная ^[4] в журнале Behavior Research Methods (doi: 10.3758/s13428-015-0664-2, pdf ^[5]).

Девушка обнаружила, что примерно половина всех научных статей по клинической психологии (то есть статей, в которых анализируются результаты экспериментов и делаются выводы) содержат как минимум одно противоречивое p-значение. Более того, в каждой седьмой работе есть чрезвычайно противоречивое p-значение, которое приводит к ошибке первого рода. То есть к обнаружению различий или связей, которые на самом деле не существуют.

Мишель Нюйтен констатирует, что часто эти статистические ошибки совпадают с выводами, которые делают авторы научных работ. Это наводит на мысль, что некоторые психологи проводят исследования с прицелом на получение конкретного результата, под который сознательно или неосознанно подгоняют статистику.

В помощь учёным, для проверки корректности статистических вычислений, Мишель с коллегами разработали программу statcheck ^[6]. Эта программа извлекает статистику из научных статей и заново вычисляет p-значения. Для работы программы нужен ещё инструмент по конвертации документов PDF в формат TXT. Например, Xpdf ^[7]. Программа написана на языке программирования R, который создан специально для статистических вычислений. Библиотека устанавливается напрямую из репозитория CRAN:

install.packages(“statcheck”)
library(“statcheck”)

С помощью программы statcheck исследователи проверили более 250 000 p-значений в статьях, опубликованных в научных журналах по психологии с 1983 по 2013 годы. Результаты подтвердились: действительно, около половины всех статей содержат ошибки в вычислении p-значения.

В августе 2016 года авторы программы пошли дальше и решили деанонимизировать авторов научных работ, в которых обнаружены ошибки. Набор данных с анализом 688 112 p-значений в 50 945 научных статьях по психологии опубликован ^[8] на сайте PrePrints.

По мнению ^[9] специалистов, это один из крупнейших в истории аудитов научных статей после их публикации. Эдакий краудсорсинг аудита научных работ (краудсорсинг — потому что результаты автоматической проверки нужно ещё проверить вручную силами сообщества — эта работа затянется на месяцы или годы).

Такая попытка не всем понравилась. Некоторые авторы статей, в том числе авторитетные учёные, недовольны тем, что их работы выставляют на показ и повергают такому аудиту. Например, своё недовольство выразила ^[10] известный психолог Дороти Бишоп из Оксфордского университета, две работы которой ^[11] помечены программой statcheck, хотя в одной работе ошибок не обнаружилось ^[12].

Hmm. Not sure this is optimal way to report stats checking of papers https://t.co/j5IZlIQq8S ^[13] pic.twitter.com/bQ6fS586Ir ^[14]

— Dorothy Bishop (@deevybee) August 26, 2016 ^[10]

Дороти Бишоп считает, что такие автоматические отчёты с указанием «0 ошибок» — это не самый лучший способ сообщать статистику. Якобы попадание в список для аудита дискредитирует авторов таких работ. Относительно другой работы с ошибками Дороти Бишоп собирается проконсультироваться ^[9] со своим соавтором и внести исправления в работу. В то же время она желает провсти аудит самой программы statcheck, потому что если она допускает хотя бы 10% ложных срабатываний, это наносит урон научному сообществу.

Другие авторы, наоборот, гордятся, что бот выдаёт по их работам автоматический отчёт с указанием «0 ошибок». Симпатичная профессор Дженнифер Такетт спрашивает ^[15], можно ли повесить отчёт в рамочку. Вот это правильный подход, с чувством юмора.

@PubPeer ^[16] @NatureNews ^[17] @Neuro_Skeptic ^[18] @RetractionWatch ^[19] I got mine tonight! Can I frame it? pic.twitter.com/mBVa3NSVxk ^[20]

— Jennifer Tackett (@JnfrLTackett) August 26, 2016 ^[15]

Результаты автоматического аудита 50 945 научных статей по психологии ещё предстоит провести. Можно предположить, что примерно в половине из них будут ошибки, как это показало прошлогоднее предварительное исследование на более ограниченной выборке. В любом случае, набор данных опубликован в открытом доступе. Работает полнотекстовый поиск по названию научной работы и по автору.

Так что если вам в ближайшее время попадётся ссылка на какой-то научное исследование по психологии — обязательно проверьте его по базе PubPeer ^[21].

Автор: alizar

Источник ^[22]

Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/psihologiya/197819

Ссылки в тексте:

[1] Бахтина: https://ru.wikipedia.org/wiki/Бахтин,_Михаил_Михайлович

[2] p-значения: https://ru.wikipedia.org/wiki/P-значение

[3] Мишель Нюйтен: https://mbnuijten.com/

[4] опубликованная: https://www.ncbi.nlm.nih.gov/pubmed/26497820

[5] pdf: https://mbnuijten.files.wordpress.com/2013/01/nuijtenetal_2015_reportingerrorspsychology1.pdf

[6] statcheck: http://cran.r-project.org/package=statcheck

[7] Xpdf: http://www.foolabs.com/xpdf/download.html

[8] опубликован: http://www.preprints.org/manuscript/201608.0191/v1

[9] мнению: http://retractionwatch.com/2016/09/02/heres-why-more-than-50000-psychology-studies-are-about-to-have-pubpeer-entries/

[10] выразила: https://twitter.com/deevybee/status/769204248143880192

[11] две работы которой: https://pubpeer.com/search?q=dorothy+bishop&sessionid=FA899255B882B466106A&commit=Search+Publications

[12] ошибок не обнаружилось: https://pubpeer.com/publications/9C3403400AEA420AB14207D312C801

[13] https://t.co/j5IZlIQq8S: https://t.co/j5IZlIQq8S

[14] pic.twitter.com/bQ6fS586Ir: https://t.co/bQ6fS586Ir

[15] спрашивает: https://twitter.com/JnfrLTackett/status/768997423737933824

[16] @PubPeer: https://twitter.com/PubPeer

[17] @NatureNews: https://twitter.com/NatureNews

[18] @Neuro_Skeptic: https://twitter.com/Neuro_Skeptic

[19] @RetractionWatch: https://twitter.com/RetractionWatch

[20] pic.twitter.com/mBVa3NSVxk: https://t.co/mBVa3NSVxk

[21] базе PubPeer: https://pubpeer.com/

[22] Источник: https://geektimes.ru/post/281344/

Нажмите здесь для печати.