Белый шум рисует черный квадрат

в 23:43, , рубрики: big data, data analysis, data mining, machine learning, Алгоритмы, анализ данных, декомпозиция баз данных, математика, открытые данные, теорема Эрдёша-Реньи

Любой аналитик, в начале своей работы, проходит ненавистный этап определения идентификации параметров распределения. Потом, с наработкой опыта, для него согласование полученных остаточных разбросов означает, что какой-то этап, в анализе Big Data, пройден и можно двигаться дальше. Уже нет необходимости проверять сотни моделей на соответствие различным уравнениям регрессии, искать отрезки с переходными процессами, составлять композицию моделей. Терзать себя сомнениями: «Может есть, еще какая-нибудь модель, которая больше подходит?»
Подумал: «А что, если пойти от противного. Посмотреть, что может сделать белый шум. Может ли белый шум создать, что-то, что наше внимание сопоставит со значимым объектом из нашего опыта?»
Белый шум рисует черный квадрат - 1
Рис. Белый шум (файл взят из сети, размер 448х235).

По этому вопросу рассуждал так:
1. Какова вероятность, что появится горизонтальные и вертикальные линии, заметной длины?
2. Если они могут появиться, то какова вероятность, что они совпадут своим началом по одной из координат и составят прямоугольную фигуру?
Дальше по тексту, объясню, как эти задачи связались с анализом Big Data.

В книге Г.Секей «Парадоксы в теории вероятностей и математической статистике» (стр.43) обнаружил ссылку на теорему Эрдёша-Реньи, которая звучит так:
При бросании монеты n раз, серия из гербов длины $log(2)n$ наблюдается с вероятностью, стремящейся к 1, при n стремящемся к бесконечности.
Для нашего рисунка это означает, что в каждой из 235 строк с вероятностью, стремящейся к 1, найдется:
Белый шум рисует черный квадрат - 3
то есть отбрасываем до целого – 8-ми черных точек подряд по горизонтали.
И для всех 448 столбцов, с вероятностью, стремящейся к 1, найдется:
Белый шум рисует черный квадрат - 4
отбрасывая до целого — 7 черных точек подряд, по вертикали.
Отсюда получаем вероятность того, что в «белом шуме» будет составлен черный прямоугольник размером 8х7 пикселей, для этой картинки:
Белый шум рисует черный квадрат - 5
Где 1 – это первая последовательность из черных точек в строке, в любом месте двумерного пространства.
Не спорю, что вероятность очень маленькая, но не нулевая.

Двигаясь дальше, мы можем соединить, все строки в одну и получим строку, длиной 102 225 знаков. И тогда по теореме Эрдёша-Реньи, с вероятностью стремящейся к 1, существует цепочка, длиной:
Белый шум рисует черный квадрат - 6
А для цепочки из 1 млн.записей:
Белый шум рисует черный квадрат - 7
Как видим, связь теоремы Эрдёша-Реньи, с Big Data, обозначилась однозначно.

Примечание. Далее буду излагать свой собственный анализ выявленного. Так как в той форме, этой теоремы и ее доказательства, которая представлена в книге Г.Секея, мне обнаружить не удалось.

Получаем, что теорема Эрдёша-Реньи, может использоваться тестом, по определению однородности данных.
Она применима к распределениям, имеющим центральный момент первого порядка (МХ).
Она может применяться только к одноканальным последовательным случайным процессам.

Как ее применять

Любое распределение, с матожиданием, мы можем представить, как отклонение от центра: влево-вправо, вверх-вниз. То есть выпадение: орла-решки.
Соответственно, по этой теореме, должен обнаруживаться интервал, в котором последовательные значения, в количестве $m=log(2)N$ находятся выше или ниже МХ (Y(xi)).

Примечание. В этом аспекте хотелось увидеть доказательство этой теоремы, чтобы понять существует только один такой подряд (только выше или ниже) или два (выше и ниже). По моим размышлениям, симметричность этих явлений должно порождать два подряда и, с другой стороны, анализируя доказательство похожего процесса, этих математиков, относящееся к графам, то предположил, что они строили доказательство на определении максимума. Что допускает и существование доказательства на минимизации целевой функции. Возникали вопросы о том, как теорема Эрдёша-Реньи выглядит для несимметричных вероятностей, для вариантов более 2.

Практическим следствием обнаружения, только одного, такого последовательного подряда, в исследуемой базе, дает нам возможность допускать, что все представленные данные однородны.
Второе. Если обрабатывая данные, по теореме Эрдёша-Реньи, мы обнаружили, что существует ряд больший по количеству значений, чем он должен быть, то вероятна ситуация, представленная на рисунке.
Белый шум рисует черный квадрат - 9
Представленный на рисунке ряд, составлен как композиция двух функций, для целей примера.

Третье заключение. Если обрабатывая данные (1 млн.записей), по теореме Эрдёша-Реньи, не было обнаружено ни одного ряда длиной 19 номеров, но обнаружилось, допустим, три последовательности с 17 номерами. То можно предположить, что общие данные состоят из композиции трех функций, и по месту этих рядов, определить интервалы в которых, возможно, происходят переходные процессы.

Когда работал над этим материалом, сверсталось наблюдение о следующем. Все, разработанные методы анализа данных, сделаны для технологий, когда, по небольшим естественным наблюдениям, необходимо определить параметры гораздо большей совокупности, по 100 наблюдениям, определить свойства генеральной совокупности объемом 1 млн. или больше. А для современных задач, когда необходимо провести декомпозицию огромной БД, разработанные статистикой инструменты очень трудоемки.

Автор: Sistemaalex

Источник


* - обязательные к заполнению поля