Работает ли ГАТО лучше монетки? Критическая оценка графического ассоциативного теста отношений в исследованиях

2026-05-07 в 12:02, admin, рубрики: валидность, методология, прогноз, прогнозирование, прогнозная аналитика, тесты

В последние годы в российских агенствах по маркетинговым исследованиям, среди социологов и политических опросах активно обсуждается и заказывается проекты с применением в таких массовых опросах Графического Ассоциативного Теста Отношений (ГАТО), позиционируемого как функциональный аналог Имплицитного Ассоциативного Теста (IAT), но более технологичный для полевых исследований. В основе ГАТО лежит идея замены цветовых стимулов теста Эткинда набором абстрактных графических фигур К. Маркерта, призванных не иметь прямых ассоциаций.

Однако основа этих подходов намертво прикреплена к цветовому тесту Люшера, который в современной психодиагностике демонстрирует отсутствие приемлемой прогностической ценности и валидности результатов, что было показано ещё в 1970х годах и подтверждено крупными выборочными исследованиями в 2000х. Это ставит под вопрос механический перенос логики тестирования на новые графические материалы, такие как фигуры Маркерта, используемые в ГАТО.

На основе своей многолетней работы по анализу опубликованных материалов проверки тестов Люшера, Эткинда и ГАТО и примеров эмпирических данных я попытался оценить обоснованность заявок на валидность теста ГАТО и оказалось, что в ряде случаев получаемые показатели не превосходят по информативности случайное угадывание результата. Дополнительно рассмотрю новые работы посвящённые проверке надёжности и валидности ГАТО.

Теоретические основания

Цветовой тест Люшера исторически относился к проективным методикам и предполагал жёсткие связи между выбором цветов и личностными характеристиками. Начиная с конца 1970х, результаты эмпирических исследований показали, что корреляции между функциональными состояниями нервной системы и цветовыми предпочтениями не соответствуют теоретическим предсказаниям Люшера, причём в ряде случаев носят противоположный характер. Более поздние крупные исследования с участием тысяч респондентов продемонстрировали, что показатели по тесту Люшера не дают надёжной дифференциации личностных черт по сравнению со стандартизированными опросниками, а диагностические выводы оказываются статистически необоснованными.

Цветовой тест отношений (ЦТО) Эткинда сохраняет ключевую посылку о том, что существенные характеристики отношений к значимым другим отражаются в цветовых ассоциациях. В электоральном контексте сами авторы ГАТО признают, что использование оригинального цветового материала оказывается проблематичным из-за устойчивых партийных цветов (красный - КПРФ, жёлтый - «Справедливая Россия», синий - ЛДПР или «Единая Россия»), что вынуждает искать «замену стимульному материалу» на фигуры Маркерта. Эта формулировка фактически фиксирует ограниченную применимость ЦТО Эткинда к политической сфере, поскольку значимая часть цветовых ассоциаций задаётся внешней символикой, а не индивидуальными эмоциональными отношениями.

ГАТО пытается решить эту проблему за счёт использования абстрактных графических фигур, однако при этом переносит на новую стимульную базу те же сильные допущения: предполагается наличие стабильных, латентных ассоциаций между фигурами и эмоциональным отношением к объектам, которые можно косвенно измерять через частоту выбора «положительной» и «отрицательной» фигуры. С учётом слабой эмпирической поддержки исходной цветовой парадигмы возникает необходимость особенно жёсткой проверки валидности новой методики.

Описание методики ГАТО и эмпирические данные

В опубликованных методических описаниях ГАТО сообщается, что респондентам предъявляются восемь абстрактных фигур (варианты Маркерта); для каждого объекта (партия, кандидат, институт и т.п.) опрашиваемый выбирает одну фигуру как «скорее положительную» и одну — как «скорее отрицательную» ассоциацию. Далее подсчитываются частоты положительного и отрицательного выбора каждой фигуры и на основе этих частот строятся показатели аффективного отношения.

Фрагмент таких данных приведён на рис. 1. В таблице указано количество положительных и отрицательных выборов для восьми фигур, их суммарное число, доля от общего количества выборов и некоторый индекс «баланса». Судя по структуре, баланс рассчитывается как отношение положительных выборов к отрицательным, нормированное таким образом, что среднее по всем фигурам равно 1,0. При суммарном количестве выборов 7121 доли по фигурам варьируют от 11,7% до 13,8%, то есть распределение близко к равномерному.

рис.1 . Оценки фигур К. Маркерта в 2017 г., количество выборов

При этом для ряда фигур положительные и отрицательные выборы практически совпадают (например, фигура 1: 418 против 424; фигура 5: 434 против 406), а максимальное расхождение по балансу составляет от 0,5 до 1,8. В публикации эти различия интерпретируются как свидетельство высокой «дифференцирующей способности» теста, хотя без указания доверительных интервалов и критериев значимости оценить статистическую ненулевость этих эффектов невозможно.

Критика

Если абстрактная фигура выбирается одинаково часто как положительный и как отрицательный маркер (примерно 400 против 400 выборов в выборке указанного масштаба), то с точки зрения теории измерения это означает отсутствие систематической связи между стимулом и латентной переменной «аффективное отношение». В терминах классической тестовой теории дискриминативность такого задания близка к нулю: стимул не отделяет респондентов с разными значениями признака, а функционирует как шум.

Утверждение о том, что подобная структура ответов «хороша» для теста, возможно, опирается на идею многомерности: разные респонденты якобы вкладывают в одну и ту же фигуру различные значения, и именно разнородность интерпретаций отражает богатство проективного материала. Однако без явного статистического моделирования (например, многомерной IRT модели или по крайней мере анализа внутренних корреляций между выборами по различным объектам) такие рассуждения остаются умозрительными и бездоказательными. В реальных данных столь симметричное распределение по знаку чаще всего говорит о том, что респонденты либо не понимают, что от них требуется, либо присваивают значения фигурам случайно, что функционально эквивалентно подбрасыванию монетки.

В ряде публикаций по ГАТО методика расчёта итоговых индексов описана крайне общо: указывается, что показатели валидизированы, сопоставлены с «термометром ощущений» и другими шкалами, но конкретные формулы и процедуры нормировки не приводятся. Это существенно ограничивает возможность независимой проверки результатов и повышает риск исследовательской произвольности. При таком уровне прозрачности «посчитать» тест можно практически как угодно, вплоть до подгонки процентов под желаемые для заказчика цифры, что и является единственным практическим достоинством методики.

Сама ссылка на ЦТО Эткинда как «широко применяемый, убедительно валидизированный и хорошо зарекомендовавший себя тест» выглядит проблематично на фоне накопленного корпуса работ, показывающих слабую диагностическую ценность цветовых тестов Люшера и близких методик. Уже в 1979 г. было показано, что эмпирические связи между функциональными состояниями и цветовыми выборами противоречивы и не соответствуют теоретическим ожиданиям. В крупном российском исследовании на выборке 6643 человек было продемонстрировано, что попытки оценивать личностные характеристики по тесту Люшера не приводят к воспроизводимой дифференциации респондентов по объективно измеряемым личностным чертам.

Перенос логики «цвет → отношение» на фигуры Маркерта без демонстрации принципиально иной психологической природы ассоциаций и без строгой проверки конструктной валидности делает ГАТО уязвимым ровно к тем же критическим аргументам.

Из текста методических статей по ГАТО создаётся впечатление, что тест способен выявлять имплицитные установки, не доступные прямым опросным методам, и повышать точность прогнозов поведения респондетов. Однако без ясных метрик точности (например, ROC кривых и сравнения с базовой моделью случайного угадывания или с простой шкалой самоотчёта) невозможно утверждать, что ГАТО действительно предсказывает поведение чаще, чем монета.

Формулировки вроде «ГАТО достаточно надёжно выявляет имплицитные факторы поведения и помогает повысить точность его прогноза» в одной из обзорных статей остаются декларативными: они не сопровождаются сопоставлением качества прогнозов с альтернативными методами. В таком виде более корректное описание состоит в том, что пока нет убедительных данных, что ГАТО работает лучше случайного угадывания в задачах индивидуального предсказания.

Новые исследования ГАТО

В статье 2023 г. в журнале RUDN автор позиционирует ГАТО как удобный инструмент имплицитного измерения в массовых опросах и функциональный аналог IAT, подчёркивая технологические преимущества (простота инструкций, возможность использования неопытной сети интервьюеров). При этом основные аргументы в пользу методики опираются на корреляции с самоотчётными шкалами и успешность ретроспективных прогнозов на уровне агрегированных электоральных результатов, но не приводятся показатели точности на уровне индивидуальных ответов.

В другой работе анализируется конвергентная валидность ГАТО и IAT; показано, что результаты двух тестов оказываются ортогональными, что интерпретируется авторами как свидетельство того, что ГАТО измеряет «иной аспект имплицитных установок», а не как проблему валидности. Такая интерпретация спорна: отсутствие корреляции между двумя претендующими на измерение сходной латентной переменной методиками чаще трактуется как отсутствие конвергентной валидности, другие объяснения требуют дополнительных обоснований, которые не были представлены.

В статье 2024 г. проводится ретестовая проверка надёжности ГАТО: 18 повторных тестов через 2 и 4 недели показывают, что для части объектов Спирмен ρ превышает 0,7, но устойчивость эффекта зависит от объекта оценивания и интервала между тестами. Для четырёхнедельного интервала только один из шести объектов сохраняет столь же высокую надёжность, что свидетельствует о значительной нестабильности измерения во времени.

Совокупно новые работы развивают аргументацию в пользу применимости ГАТО, и содержат признаки ангажированности авторов. Но даже в таких исследованиях демонстрируется, что ни конвергентная валидность с IAT, ни ретестовая надёжность не являются убедительными. С точки зрения критического анализа, эти данные усиливают сомнения в пригодности ГАТО, чем снимают их.

С практической точки зрения, использование ГАТО в прикладных исследованиях (например, в тендерных проектах по анализу 1000 анкет) оправдано лишь в том случае, если заказчик осознаёт полностью экспериментальный статус методики и соглашается рассматривать результаты как возможный шум, а не сигнал, использовать их как дополняющую, возможно ложную информацию, а не как надёжную основу для принятия решений. В противном случае подмена строгого анализа «красивыми» таблицами, чьи цифры по сути не превосходят по информативности случайные распределения практически неизбежна.

Заключение

В текущем виде методика ГАТО не демонстрирует достаточной теоретической обоснованности, прозрачности и психометрических свойств, чтобы считаться надёжным инструментом измерения политических установок на уровне отдельных респондентов. Равномерное распределение положительных и отрицательных выборов фигур, отсутствие чётко описанных алгоритмов расчёта индексов и неоднозначные результаты исследований по валидности и надёжности скорее подтверждают, что ГАТО в лучшем случае работает не лучше случайного угадывания в ряде задач, а в худшем — создаёт иллюзию точного измерения там, где объективного сигнала почти нет.

Перспективы дальнейшей работы с подобными инструментами видятся в двух направлениях. Жёсткая психометрическая проверка (IRT модели, анализ дискриминативности каждой фигуры, сопоставление с простыми шкалами самоотчёта и базовыми моделями случайного угадывания) и отказ от проективной метафоры в пользу более прозрачных поведенческих индикаторов и экспериментальных парадигм, где связь между стимулом и откликом может быть строго смоделирована и проверена. Пока такие исследования не проведены и не показали устойчивых эффектов, использование ГАТО как «научно валидизированной» методики следует считать методологически неоправданным.

Автор: Rebelqwe

Источник

Информация

Комментарии

Рекомендуем