Нечеткий кластерный анализ на примере социально-экономических показателей крупных городов России

в 2:37, , рубрики: data mining, Алгоритмы, города, кластерный анализ, метки: ,

Введение

Кластерный анализ — задача разбиения определенного множества объектов на группы, называемые кластерами так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. Данный анализ предполагает следующие цели:

  • Понимание данных путем выявления кластерной структуры.
  • Сжатие данных. Если исходная выборка избыточно большая, то можно сократить её, оставив по одному наиболее типичному представителю от каждого кластера.
  • Обнаружение новизны. Выделяются нетипичные объекты, которые не удаётся присоединить ни к одному из кластеров.

В данной статье будет использоваться метод нечеткой кластеризации c-means. Отличительной особенностью нечеткой кластеризации является тот факт, что каждый объект может относиться к каждому кластеру с определенной степенью принадлежности.

Для анализа будут выбраны 17 крупнейших городов России по населению, в качестве характеристик выступают социально-экономические показатели (демография, занятость населения, зарплата, преступность и т.д.). Результатом будут являться полученные кластеры городов.
image

Алгоритм нечеткой кластеризации методом c-means

Обозначения:

  • Обучающее множество image, где d — количество точек (векторов) данных.
  • Матрица A определяет способ вычисления расстояния. Например, для единичной матрицы будем использовать расстояние по Евклиду.

Алгоритм выглядит следующим образом:

  1. Выбрать количество кластеров image.
  2. Выбрать скалярную метрику для отображения векторов на вещественную ось.
  3. Выбрать параметр остановки image.
  4. Выбрать коэффициент нечеткости image.
  5. Проинициализировать матрицу разбиения U (например, случайными значениями).
  6. Вычислить прототипы (центры) кластеров по формуле image.
  7. Для всех элементов данных высчитать квадраты расстояний до всех центров кластеров по формуле image.
  8. Обновить матрицу разбиений по формуле image для всех image.
  9. Проверить условие image. Если условие выполняется, завершить процесс, если нет – перейти к шагу 6 с номером итерации l = l + 1.

Целевая функция image.
Набор ограничений image

Анализ показателей и интерпретация результатов

Исходные данные для анализа были отобраны от сюда. Абсолютные показатели (например, количество преступлений, среднегодовая численность работников и пр.) были переведены в относительные, исходя из численности населения. Всего в анализе учавствует 17 городов России, описанные 10 параметрами. Данные, которые использовались для анализа приведены в таблице.
image

Если провести кластерный анализ, указав количество кластеров равным 3, то получим следующий результат
image

Условно, город относится к тому или иному кластеру по критерию максимума принадлежности данному кластеру. Как видно, в отдельный кластер была вынесена Москва. Одна из целей кластерного анализа это определение нетипичных объектов. Москва является нетипичным городом для данной выборки, поскольку занимает отдельный кластер. В остальных двух кластерах количество отнесенных объектов равно 8-ми в каждом.

Можно увеличить количество кластеров до 5, в таком случае на выходе будет данный результат
image

Москва по-прежнему, занимает отдельный кластер, но появляется еще один нетипичный объект — Санкт-Петербург. В остальных кластерах остается по 5 городов. Получается, что имеется два нетипичных города в заданных условиях, которые не близки между собой. Им характерны следующие черты: большое количество жителей, наиболее высокая зарплата, относительно низкий уровень преступности, малый процент обучающихся в общеобразовательных учреждениях, а также высокий процент среднегодовой численности работников.

Можно предположить, что для человека миграция из одного города в другой в рамках одного кластера, будет производить незначительный общий эффект, если не учитывать климатические условия и другие специфические параметры, которые не были учтены в исходных данных.

В статье описан алгоритм нечеткой кластеризации c-means для определения степени принадлежности группы объектов к кластерам на примере крупных городов России. Данный метод можно применять для анализа потребителей, ситуаций, объектов при распознавании образов и других задачах, где необходимо определить общность объектов в рамках заданной группы.

Дополнительные источники информации

  1. Fuzzy clustering on Wikipedia
  2. Cluster Analysis on Wikipedia
  3. Кластерный анализ на Википедии
  4. Анализ данных и процессов / А.А.Барсегян, М.С.Куприянов, И.И.Холод, М.Д.Тесс, С.И.Елизаров. З-е изд. перераб. и доп. СПб.

Автор: sermal

Поделиться

* - обязательные к заполнению поля