- PVSM.RU - https://www.pvsm.ru -
Подробно теорема Байеса излагается в отдельной статье [1]. Это замечательная статья, но в ней 15 000 слов. В этом же переводе статьи от Kalid Azad [2] кратко объясняется самая суть теоремы – для тех, кто впервые знакомится с ней, как и я сам.
Tеорема Байеса превращает результаты испытаний в вероятность событий.
В статье, на которую дана ссылка в начале этого эссе, разбирается метод диагностики (маммограмма), выявляющий рак груди. Рассмотрим этот метод подробно.
Теперь оформим такую таблицу:
Болеют (1%) | Не болеют (99%) | |
Положительный результат метода | 80% | 9,6% |
Отрицательный результат метода | 20% | 90,4% |
Как работать с этим данными?
Теперь разберем положительный результат теста. Какова вероятность того, что человек действительно болен: 80%, 90%, 1%?
Давайте подумаем:
Теперь таблица выглядит так:
Болеют (1%) | Не болеют (99%) | |
Положительный результат метода | Истинный положительный: 1% * 80% = .008 |
Ложноположительный: 99% * 9.6% = .09504 |
Отрицательный результат метода | Ложноотрицательный: 1% * 20% = .002 |
Истинный отрицательный: 99% * 90,4% = .89496 |
Какова вероятность, что человек действительно болен, если получен положительный результат маммограммы? Вероятность события — это отношение количества возможных исходов события к общему количеству всех возможных исходов.
вероятность события = исходы события / все возможные исходы
Вероятность истинного положительного результата – .008. Вероятность положительного результата — это вероятность истинного положительного исхода + вероятность ложноположительного.
(.008 + 0.09504 = .10304)
Итак, вероятность заболевания при положительном результате исследования рассчитывается так: .008/.10304 = 0.0776. Эта величина составляет около 7.8%.
То есть положительный результат маммограммы значит только то, что вероятность наличия заболевания – 7,8%, а не 80% (последняя величина — это лишь предполагаемая точность метода). Такой результат кажется поначалу непонятным и странным, но нужно учесть: метод дает ложноположительный результат в 9,6% случаев (а это довольно много), поэтому в выборке будет много ложноположительных результатов. Для редкого заболевания большинство положительных результатов будут ложноположительными.
Давайте пробежимся глазами по таблице и попробуем интуитивно ухватить смысл теоремы. Если у нас есть 100 человек, только у одного из них есть заболевание (1%). У этого человека с 80% вероятностью метод даст положительный результат. Из оставшихся 99% у 10% будут положительные результаты, что дает нам, грубо говоря, 10 ложноположительных исходов из 100. Если мы рассмотрим все положительные результаты, то только 1 из 11 будет верным. Таким образом, если получен положительный результат, вероятность заболевания составляет 1/11.
Выше мы посчитали, что эта вероятность равна 7,8%, т.е. число на самом деле ближе к 1/13, однако здесь с помощью простого рассуждения нам удалось найти приблизительную оценку без калькулятора.
Теперь опишем ход наших мыслей формулой, которая и называется теоремой Байеса. Эта теорема позволяет исправить результаты исследования в соответствии с искажением, которое вносят ложноположительные результаты:
$$display$$Pr(A|X) = frac{Pr(X|A) Pr(A)}{Pr(X|A) Pr(A) Pr(X|not A) Pr(not A)}$$display$$
Можно сделать заключение: чтобы получить вероятность события, нужно вероятность истинного положительного исхода разделить на вероятность всех положительных исходов. Теперь мы можем упростить уравнение:
$$display$$Pr(A|X) = frac{Pr(X|A)Pr(A)}{Pr(X)}$$display$$
Pr(X) – это константа нормализации. Она сослужила нам хорошую службу: без нее положительный исход испытаний дал бы нам 80% вероятность события.
Pr(X) – это вероятность любого положительного результата, будет ли это настоящий положительный результат при исследовании больных (1%) или ложноположительный при исследовании здоровых людей (99%).
В нашем примере Pr(X) – довольно большое число, потому что велика вероятность ложноположительных результатов.
Pr(X) создает результат 7,8%, который на первый взгляд кажется противоречащим здравому смыслу.
Мы проводим испытания, чтоб выяснить истинное положение вещей. Если наши испытания совершенны и точны, тогда вероятности испытаний и вероятности событий совпадут. Все положительные результаты будут действительно положительными, а отрицательные — отрицательными. Но мы живем в реальном мире. И в нашем мире испытания дают неверные результаты. Теорема Байеса учитывает искаженные результаты, исправляет ошибки, воссоздает генеральную совокупность и находит вероятность истинного положительного результата.
Теорема Байеса удачно применяется в спам-фильтрах.
У нас есть:
$$display$$Pr(spam|words) = frac{Pr(words|spam) Pr(spam)}{Pr(words)}$$display$$
Фильтр берет в расчет результаты испытаний (содержание в письме определенных слов) и предсказывает, содержит ли письмо спам. Всем понятно, что, например, слово «виагра» чаще встречается в спаме, чем в обычных письмах.
Фильтр спама на основе черного списка обладает недостатками — он часто выдает ложноположительные результаты.
Спам-фильтр на основе теоремы Байеса использует взвешенный и разумный подход: он работает с вероятностями. Когда мы анализируем слова в письме, мы можем рассчитать вероятность того, что письмо — это спам, а не принимать решения по типу «да/нет». Если вероятность того, что письмо содержит спам, равна 99%, то письмо и вправду является таковым.
Со временем фильтр тренируется на все большей выборке и обновляет вероятности. Так, продвинутые фильтры, созданные на основе теоремы Байеса, проверяют множество слов подряд и используют их в качестве данных.
Дополнительные источники:
Автор: bio_robot
Источник [5]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/nauchno-populyarnoe/269616
Ссылки в тексте:
[1] отдельной статье: http://yudkowsky.net/rational/bayes
[2] Kalid Azad: https://betterexplained.com/articles/an-intuitive-and-short-explanation-of-bayes-theorem/
[3] Теорема Байеса на википедии: https://en.wikipedia.org/wiki/Bayes%27_theorem
[4] Обсуждение на coding horror: https://blog.codinghorror.com/an-initiate-of-the-bayesian-conspiracy/
[5] Источник: https://geektimes.ru/post/296041/?utm_source=habrahabr&utm_medium=rss&utm_campaign=sandbox
Нажмите здесь для печати.