- PVSM.RU - https://www.pvsm.ru -
В современных условиях интерес к анализу данных постоянно и интенсивно растет в совершенно различных областях, таких как биология, лингвистика, экономика, и, разумеется, IT. Основу этого анализа составляют статистические методы, и разбираться в них необходимо каждому уважающему себя специалисту в data mining.
К сожалению, действительно хорошая литература, такая что умела бы предоставить одновременно математически строгие доказательства и понятные интуитивные объяснения, встречается не очень часто. И данные лекции [1], на мой взгляд, необычайно хороши для математиков, разбирающихся в теории вероятностей именно по этой причине. По ним преподают магистрам в немецком университете имени Кристиана-Альбрехта на программах «Математика» и «Финансовая математика». И для тех, кому интересно, как этот предмет преподается за рубежом, я эти лекции перевел [2]. На перевод у меня ушло несколько месяцев, я разбавил лекции иллюстрациями, упражнениями и сносками на некоторые теоремы. Замечу, что я не профессиональный переводчик, а просто альтруист и любитель в этой сфере, так что приму любую критику, если она конструктивна.
Вкратце, лекции вот о чем:
Эта глава не относится непосредственно к статистике, однако, идеальна для старта её изучения. Условное математическое ожидание — это наилучший выбор для предсказания случайного результата на основе уже имеющейся информации. И это тоже случайная величина. Здесь рассматриваются его различные свойства, такие как линейность, монотонность, монотонная сходимость и прочие другие.
Как оценить параметр распределения? Какой для этого выбрать критерий? Какие методы при этом использовать? Эта глава позволяет ответить на все эти вопросы. Здесь вводятся понятия несмещенной оценки и равномерно несмещенной оценки с минимальной дисперсией. Объясняется, откуда берутся распределение хи-квадрат и распределение Стьюдента, и чем они важны при оценивании параметров нормального распределения. Рассказывается, что такое неравенство Рао-Крамера и информация Фишера. Также вводится понятие экспоненциального семейства, многократно облегчающего получение хорошей оценки.
Здесь описывается иной философский подход к оценке. В данном случае параметр считается неизвестным потому, что он является реализацией некой случайной величины с известным (априорным) распределением. Наблюдая результат эксперимента мы рассчитываем так называемое апостериорное распределение параметра. На основе этого, мы можем получить Байесовскую оценку, где критерием является минимум потерь в среднем, или минимаксную оценку, минимизирующую максимально возможные потери.
Эта глава имеет серьезное прикладное значение. Достаточная статистика — это функция от выборки, такая что достаточно хранить только результат этой функции для того, чтобы оценить параметр. Таких функций много и среди них выделяют так называемые минимальные достаточные статистики. Например, для оценки медианы нормального распределения достаточно хранить лишь одно число — среднее арифметическое по всей выборке. Работает ли это также для других распределений, например, для распределения Коши? Как достаточные статистики помогают в выборе оценок? Здесь вы можете найти ответы на эти вопросы.
Пожалуй, самое важное и необходимое свойство оценки — это её состоятельность, то есть стремление к истинному параметру при увеличении размера выборки. В этой главе рассказывается какими свойствами обладают известные нам оценки, полученные описанными в предыдущих главах статистическими методами. Вводятся понятия асимптотической несмещенности, асимптотической эффективности и расстояния Кульбака-Лейблера.
Кроме вопроса о том, как оценить неизвестный нам параметр, мы должны каким-то образом проверить, удовлетворяет ли он требуемым свойствам. Например, проводится эксперимент, в ходе которого испытывается новое лекарство. Как узнать, выше ли вероятность выздоровления с ним, нежели чем с использованием старых лекарств? В этой главе объясняется, как строятся подобные тесты. Вы узнаете, что такое равномерно наиболее мощный критерий, критерий Неймана-Пирсона, уровень значимости, доверительный интервал, а также откуда берутся небезызвестные критерий Гаусса и t-критерий.
Как и оценки, критерии должны удовлетворять определенным асимптотическим свойствам. Иногда могут возникнуть ситуации, когда нужный критерий построить невозможно, однако, используя известную центральную предельную теорему, мы строим критерий, асимптотически стремящийся к необходимому. Здесь вы узнаете, что такое асимптотический уровень значимости, метод отношения правдоподобия, и как строятся критерий Бартлетта и критерий независимости хи-квадрат.
Эту главу можно рассматривать как дополнение, а именно, применение статистики в случае линейной регрессии. Вы разберетесь в том, какие оценки хороши и в каких условиях. Вы узнаете, откуда взялся метод наименьших квадратов, каким образом строить критерии и зачем нужно F-распределение.
Ссылки на
Автор: The_Freeman
Источник [4]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/matematika/204681
Ссылки в тексте:
[1] данные лекции: https://github.com/StochasticEngineer/Statistics-lectures/blob/master/vorlesungonline.pdf
[2] перевел: https://github.com/StochasticEngineer/Statistics-lectures/blob/master/book.pdf
[3] Исходный код: https://github.com/StochasticEngineer/Statistics-lectures
[4] Источник: https://habrahabr.ru/post/312552/?utm_source=habrahabr&utm_medium=rss&utm_campaign=best
Нажмите здесь для печати.