Лженаука. Верить ли научным статьям по психологии

2016-10-10 в 16:09, admin, рубрики: PubPeer, аудит, краудсорсинг, Научно-популярное, психология, метки: PubPeer

Лженаука. Верить ли научным статьям по психологии - 1
Уровень значимости и p-значение в математической статистике

С каждым годом растёт количество публикаций в научных журналах, в том числе публикаций по гуманитарным наукам. Согласно определению Бахтина, «предмет гуманитарных наук — выразительное и говорящее бытие. Это бытие никогда не совпадает с самим собой и потому неисчерпаемо в своем смысле и значении».

Неисчерпаемость смысла и значения бытия не мешает анализировать результаты научных исследований статистическими методами. В частности, выводы в исследованиях по экспериментальной психологии часто являются результатом тестирования значимости нулевой гипотезы.

Но есть большое подозрение, что авторы некоторых научных работ не очень сильны в математике.

Статистическая гипотеза — утверждение относительно неизвестного параметра генеральной совокупности на основе выборочного исследования. Для обоснования заключения необходимо тестирование результатов, на которых строится гипотеза, на статистическую достоверность. Надёжность определяется тем, насколько вероятно, что обнаруженная в выборке связь подтвердится на другой выборке той же генеральной совокупности. Очевидно, что провести исследование на все выборке практически невозможно, а провести многократное исследование на разных выборках очень трудно. Поэтому широко используются методы статистики. Они позволяют оценить вероятность случайного получения такого различия при условии, что на самом деле различий в генеральной совокупности нет.

Нулевая гипотеза (null hypothesis) — гипотеза об отсутствии различий (утверждение об отсутствии различий в значениях или об отсутствии связи в генеральной совокупности). Согласно нулевой гипотезе, различие между значениями недостаточно значительно, а независимая переменная не оказывает никакого влияния.

В современных научных работах нулевые гипотезы часто проверяют с использованием p-значения. Эта величина равна вероятности того, что случайная величина с данным распределением примет значение, не меньшее, чем фактическое значение тестовой статистики.

Например, уровень значимости 0,05 означает, что допускается не более чем 5%-ая вероятность ошибки. Другими словами, нулевую гипотезу можно отвергнуть в пользу альтернативной гипотезы, если по результатам статистического теста вероятность случайного возникновения обнаруженного различия не превышает 5%, т.е. p-значение не превышает 0,05. Если же этот уровень значимости не достигается (вероятность ошибки выше 5%), считают, что разница вполне может быть случайной и поэтому нельзя отклонить нулевую гипотезу. Таким образом, p-значение соответствует риску совершения ошибки первого рода (отклонения истинной нулевой гипотезы).

Использование p-значений для проверки нулевых гипотез в работах по медицине подвергается критике со стороны многих специалистов. Более того, в 2015 году один из научных журналов — Basic and Applied Social Psychology (BASP) — вовсе запретил публикацию статей, в которых используются p-значения. Журнал объяснил своё решение тем, что сделать исследование, в котором получено p < 0,05 не очень сложно, и такие значения p слишком часто становятся оправданием для низкопробных исследований. На практике использование p-значений нередко приводит к статистическим ошибкам первого рода — ошибкам обнаружить различия или связи, которые на самом деле не существуют.

Лженаука. Верить ли научным статьям по психологии - 2 В 2015 году немало шуму наделала статья студентки из университета Тилбурга Мишель Нюйтен с коллегами, опубликованная в журнале Behavior Research Methods (doi: 10.3758/s13428-015-0664-2, pdf).

Девушка обнаружила, что примерно половина всех научных статей по клинической психологии (то есть статей, в которых анализируются результаты экспериментов и делаются выводы) содержат как минимум одно противоречивое p-значение. Более того, в каждой седьмой работе есть чрезвычайно противоречивое p-значение, которое приводит к ошибке первого рода. То есть к обнаружению различий или связей, которые на самом деле не существуют.

Мишель Нюйтен констатирует, что часто эти статистические ошибки совпадают с выводами, которые делают авторы научных работ. Это наводит на мысль, что некоторые психологи проводят исследования с прицелом на получение конкретного результата, под который сознательно или неосознанно подгоняют статистику.

В помощь учёным, для проверки корректности статистических вычислений, Мишель с коллегами разработали программу statcheck. Эта программа извлекает статистику из научных статей и заново вычисляет p-значения. Для работы программы нужен ещё инструмент по конвертации документов PDF в формат TXT. Например, Xpdf. Программа написана на языке программирования R, который создан специально для статистических вычислений. Библиотека устанавливается напрямую из репозитория CRAN:

install.packages(“statcheck”)
library(“statcheck”)

С помощью программы statcheck исследователи проверили более 250 000 p-значений в статьях, опубликованных в научных журналах по психологии с 1983 по 2013 годы. Результаты подтвердились: действительно, около половины всех статей содержат ошибки в вычислении p-значения.

В августе 2016 года авторы программы пошли дальше и решили деанонимизировать авторов научных работ, в которых обнаружены ошибки. Набор данных с анализом 688 112 p-значений в 50 945 научных статьях по психологии опубликован на сайте PrePrints.

По мнению специалистов, это один из крупнейших в истории аудитов научных статей после их публикации. Эдакий краудсорсинг аудита научных работ (краудсорсинг — потому что результаты автоматической проверки нужно ещё проверить вручную силами сообщества — эта работа затянется на месяцы или годы).

Такая попытка не всем понравилась. Некоторые авторы статей, в том числе авторитетные учёные, недовольны тем, что их работы выставляют на показ и повергают такому аудиту. Например, своё недовольство выразила известный психолог Дороти Бишоп из Оксфордского университета, две работы которой помечены программой statcheck, хотя в одной работе ошибок не обнаружилось.

Hmm. Not sure this is optimal way to report stats checking of papers https://t.co/j5IZlIQq8S pic.twitter.com/bQ6fS586Ir

— Dorothy Bishop (@deevybee) August 26, 2016

Дороти Бишоп считает, что такие автоматические отчёты с указанием «0 ошибок» — это не самый лучший способ сообщать статистику. Якобы попадание в список для аудита дискредитирует авторов таких работ. Относительно другой работы с ошибками Дороти Бишоп собирается проконсультироваться со своим соавтором и внести исправления в работу. В то же время она желает провсти аудит самой программы statcheck, потому что если она допускает хотя бы 10% ложных срабатываний, это наносит урон научному сообществу.

Другие авторы, наоборот, гордятся, что бот выдаёт по их работам автоматический отчёт с указанием «0 ошибок». Симпатичная профессор Дженнифер Такетт спрашивает, можно ли повесить отчёт в рамочку. Вот это правильный подход, с чувством юмора.

@PubPeer @NatureNews @Neuro_Skeptic @RetractionWatch I got mine tonight! Can I frame it? pic.twitter.com/mBVa3NSVxk

— Jennifer Tackett (@JnfrLTackett) August 26, 2016

Результаты автоматического аудита 50 945 научных статей по психологии ещё предстоит провести. Можно предположить, что примерно в половине из них будут ошибки, как это показало прошлогоднее предварительное исследование на более ограниченной выборке. В любом случае, набор данных опубликован в открытом доступе. Работает полнотекстовый поиск по названию научной работы и по автору.

Так что если вам в ближайшее время попадётся ссылка на какой-то научное исследование по психологии — обязательно проверьте его по базе PubPeer.

Автор: alizar

Источник

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Лженаука. Верить ли научным статьям по психологии

Архив

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Лженаука. Верить ли научным статьям по психологии

Рекомендованный контент

Новости

Актуальные темы

Архив