Смех и грех псевдорейтинга

в 16:12, , рубрики: математика, статистика, Статистика в IT, метки:

Смех и грех псевдорейтинга
Вчера мне на глаза попалась новость «Россия занимает %какое-то-низкое-место в рейтинге хороших стран». Новость как новость, «рейтинги» такого типа делаются регулярно и во множестве. Но в новости указывался список «самых хороших» стран и сайт-источник. Данные, которые там приведены, вызывают здоровый смех, а методика подсчета — возмущение. О рейтингах и манипуляции данными этот пост.

Лидеры рейтинга

Итак, какие страны по мнению составителей являются самыми хорошими?

  1. Ирландия
  2. Финляндия
  3. Швейцария
  4. Нидерланды
  5. Новая Зеландия
  6. Швеция
  7. Великобритания
  8. Норвегия
  9. Дания
  10. Бельгия

Это Топ-10. Уже достаточно странный список, страны как правило небольшие, и никаких воспоминаний, связанных с их «хорошими» и «плохими» делами в голову что-то не приходит. Тем интереснее зайти на их сайт и посмотреть на полные списки и методику подсчета.

Сайт

Смотрим их сайт. Хипстерский модный дизайн уже навевает подозрения, ладно, назовем это придирками и не будем учитывать. Смотрим FAQ рейтинга:

The Good Country Index tries to measure how much each country on earth contributes to the planet and to the human race.

Индекс Хороших Стран пытается измерить вклад в планету и человечество каждой страны на Земле.

Try thinking of “good” as a measure of how much a country contributes to the common good. So in this context “good” means the opposite of “selfish”, not the opposite of “bad”.

Попробуйте подумать о «хорошем» как о том, насколько страна вкладывается в общее благо. В этом контексте «хороший» — это антоним «эгоистичного», не антоним «плохого»

ОК, это подается как некий рейтинг альтруизма стран. Из общего рейтинга по-прежнему ничего не понятно, давайте посмотрим рейтинг по отраслям.

Рейтинги по отраслям

Смех и грех псевдорейтинга

Числа есть только в номерах рейтинга. Исходные данные представлены какими-то непонятными барами без указания значения, величины, порядка, да вообще хоть чего-нибудь осмысленного. Что очень печально и вызывает серьезные подозрения.

Наука и технологии

Топ-10: Великобритания, Австрия, Кипр(!), Чехия, Израиль, Швейцария, Финляндия, Швеция, Венгрия, Новая Зеландия.
Критерии оценки: иностранные студенты, экспорт журналов, международные публикации 2009 года, Нобелевские лауреаты, патенты.

Уже можно смеяться. Кипр с третьим местом получает высокие оценки в категориях «иностранные студенты», «экспорт журналов», «нобелевские лауреаты». Вы знаете хоть одного Нобелевского лауреата с Кипра? Гугл — только одного. США находятся на 26 месте, уступив по Нобелевским лауреатам Боснии и Герцеговине и Исландии.
Смех и грех псевдорейтинга

Культура

Топ-10: Бельгия, Нидерланды, Мальта(!), Австрия, Германия, Эстония, Ирландия, Чехия.
Критерии: экспорт «креативных товаров» и «креативных услуг», вклад в ЮНЕСКО, свобода передвижения и свобода прессы. Сложно понять, как последние два пункта относятся к культуре, но в любом случае третье место Мальты вызывает серьезное недоумение. Вне зависимости от того, как считать культуру — артефактами индустрии кино, инди-геймдевом или весом выпущенных книг, высший балл Мальта получает непонятно за что.

Международный мир и безопасность

Топ-10: Египет(!!!), Иордания, Танзания(!), Лесото, Уругвай, Того, Бенин, Парагвай, Нигерия, Эквадор.
Критерии: миротворцы, вклад в миротворческий бюджет ООН, международные конфликты, экспорт оружия, интернет-безопасность.
Если честно, в этот момент у меня возникло ощущение, что рейтинг составлялся задом наперед, и первое место наихудшее. Но промотав список до упора вниз, я заметил, что в хвосте тоже непонятные страны — Литва, Латвия, Венгрия, Азербайджан.
А теперь, внимание, в самом низу мелким шрифтом указаны источники данных и методология их обработки! Надеюсь, все вспомнили, что в рекламах и контрактах мелким шрифтом пишут обычно весьма неприятные и неожиданные вещи? Давайте посмотрим:

All data is 2010 data unless otherwise indicated. Countries receive scores on each indicator as a fractional rank (0=top rank, 1=lowest) relative to all countries for which data is available. The actual simple ranks per category are based on the mean fractional ranks on the 5 indicators per category (subject to maximum 2 missing values per category). The overall rank is based on the average of the category ranks.

Все данные относятся к 2010 году, если не указано обратное. Страны получают очки по каждому индикатору как дробный ранг (0=высший, 1=низший) относительно всех остальных стран, по которым доступны данные. Простые ранги по категориям базируются на дробных рангах по пяти индикаторам на категорию (до двух параметров могут отсутствовать). Итоговый ранг базируется на среднем по рангам категорий.

Очень жаль (хотя, думаю, это сделано намеренно), что нет примера расчета. Потому что непонятно, как они считают этот «дробный ранг» — он является долей из суммы? Или чем-то типа распределения? В общем, отсутствие формул прямо намекает, что нам пытаются морочить голову. Какие ещё проблемы можно выделить здесь?

  1. Значения делятся на ВВП стран. Необходимость этого никак не обоснована. Можно предположить, что авторы хотели посчитать что-то типа «сколько каждый гражданин отдает на мировое процветание из своей зарплаты», но ВВП — это очень грубое приближение к такому подсчету. Далее, почему, например, количество миротворцев делится на ВВП? В военном деле важнее абсолютные цифры, почему десять миротворцев от богатой страны получаются хуже, чем один от бедной (если ВВП бедной страны в одиннадцать раз меньше богатой, так и будет)?
  2. Механизм пересчета «дробного ранга» в «простой ранг» никак не показан.
  3. Зачем при подсчете «простого ранга» берется среднее от рангов по категориям? Почему страна, сделавшая большой вклад в какой-то области, потеряет его из-за отставания в других областях? Почему не используется простая сумма баллов, если вы уже один раз «нормировали» на ВВП?

Важный обман рейтингов

У рейтингов есть одно очень обманчивое свойство — без абсолютных данных они становятся гораздо менее информативными. Рассмотрим пример, гротескный для наглядности:
Рейтинг 5 стран по доступности коммунальных услуг, количество дней без горячей воды. Страны A,B,C,D,E,F,G. Страна C заняла третье место в рейтинге. Вроде бы у неё хорошее положение, не так ли? Теперь посмотрим исходные данные:
Смех и грех псевдорейтинга
Согласитесь, в этом случае третье место в рейтинге немногого стоит.

Заключение

Если вы увидите какой-нибудь рейтинг, неважно, какая страна занимает в нем какое место, отнеситесь с к данным с определенной долей критичности, попробуйте подумать, откуда эти данные получены, как обработаны, чтобы не стать жертвой недобросовестных манипуляторов.

Автор: lozga

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js