Визуализация и анализ структуры сообществ с помощью графов

в 16:04, , рубрики: data mining, Блог компании Leader-ID, визуализация данных, графы и визуализация, Социальные сети и сообщества, Управление сообществом

Графы — классный инструмент для визуализации больших объемов данных и связей между отдельными элементами. Мы использовали его для оценки связанности наших сообществ и понимания взаимодействия между разными группами и тематическими направлениями.

В итоге мы нашли людей-суперконнекторов, узнали, чем отличаются сообщества в разных городах России, а также выяснили, что предпринимателей среди тех, кому за 50, в два с половиной раза больше, чем в среднем по всем участникам наших сообществ.

Визуализация и анализ структуры сообществ с помощью графов - 1

Кто мы и чем занимаемся

Поскольку это наша первая статья на Хабре, надо сказать пару слов о себе. По факту мы оперируем бесплатной быстрорастущей сетью пространств для презентаций и коллективной работы, где любой может проводить семинары, тренинги, встречи или просто работать как в коворкинге. В нашей терминологии мы называем их Точки кипения.

Визуализация и анализ структуры сообществ с помощью графов - 2
Yeah, it’s for free

Плюс разрабатываем и поддерживаем цифровую платформу Leader-ID, помогающую выстроить связи между всеми участниками системы, делиться знаниями, искать единомышленников и партнеров и создавать свои сообщества.

В данный момент у нас зарегистрировано более 800 тысяч человек.

Начиналось все три года назад, когда у сети было только одно пространство — в Москве на Маяковской.

Визуализация и анализ структуры сообществ с помощью графов - 3
Точка кипения в Малом Конюшковском переулке в Москве

Через месяц, в ноябре 2016 года, появилось второе — в Питере. А на сегодняшний день у нас уже 82 Точки кипения в 54 городах России.

Как это работает

Наш принцип очень прост: мы создаем место, куда могут приходить активные неравнодушные люди, те, у кого есть свои идеи, разработки, проекты. В наших пространствах они могут встретить партнеров или инвесторов, получить инсайт или советы, как изменить свой проект в лучшую сторону или реализовать идею.

Как это работает? В теории, когда ты приходишь на какое-либо наше мероприятие или просто в коворкинг, ты встречаешь новых людей, которые готовы и открыты к общению. Чем чаще ты приходишь, тем больше людей встречаешь и тем чаще начинаешь что-то обсуждать. И тем больше поводов для размышлений и новых идей появляется. Новые идеи — новые контакты — новые проекты.

Чтобы проверить эту теорию, мы решили воспользоваться сетевым анализом и посмотреть, как меняется плотность общения между участниками наших мероприятий.

Что именно хотим узнать с помощью графов

Во-первых, нам было интересно узнать, сформировано ли внутри каждой из Точек настоящее сообщество и насколько оно разрозненно.

Во-вторых, каким образом это сообщество разделяется по темам и направлениям, как в нем взаимодействуют люди из разных сфер и есть ли там суперконнекторы — люди, на которых держатся отдельные направления, или же все происходит хаотично.

В-третьих, насколько пересекаются (и пересекаются ли вообще) бизнес, образование и власть. В теории контакты есть везде, но нас интересовала практика.

Плюс нам было интересно, чем отличаются Точки в разных городах России.

Общие установки

Что мы сделали, чтобы улучшить результаты и получить более реалистичную картину:

  1. Убрали выбросы — данные с мероприятий, где число участников аномально отличалось от среднего показателя.
  2. Задали правила связности — приняли, что люди связаны друг с другом, если они были на совместных мероприятиях. Чем больше мероприятий они посещали вместе, тем сильнее связь.

Итак, поехали.

Как выглядит сообщество на графе и что происходит в отдельных направлениях

На данном этапе мы хотели визуализировать связность локальных участников сообщества между собой, а также оценить влияние размеров мероприятий и тематики на установление связей. Под сообществом мы подразумеваем тех, кто зарегистрирован на Leader-ID и хоть раз посещал или организовывал какое-либо из мероприятий в своем регионе.

В качестве базы мы взяли 85 мероприятий Петрозаводска, в которых принимали участие от 2 до 20 человек (общее число участников этих мероприятий — 414 человек). Сделали предположение, что чем больше людей на мероприятии, тем меньше сила связи между ними: ведь на большом мероприятии шанс поговорить с каждым человеком меньше, чем на маленьком, где все друг друга знают или легко знакомятся.

В итоге разделили наши 85 мероприятий на две категории: маленькое мероприятие (2–8 участников) и среднее мероприятие (9–20 участников).

Несколько чрезмерно крупных ивентов было исключено из выборки согласно нашему постулату о нормализации данных и отказу от анализа выбросов.

Использованные методы анализа

  • 2-mode-graph для создания affiliation network.
  • Алгоритм Kamada — Kawai для учета плотности связей и количества (компоненты с плотной связанностью и большим количеством внутренних связей находятся на рисунке визуально ближе).
  • Нормализация центральностей в социальном графе и во взвешенном социальном графе.
  • Статистический анализ для подготовки и очистки данных.
  • Визуализация в Pajek.

Итак, сеть средних мероприятий получилась такой:

Визуализация и анализ структуры сообществ с помощью графов - 4

Тут прекрасно видно, что ядро сети по мощности больше, чем его периферийная часть (отдельные не соединенные с основным графом элементы). Значит, мы имеем дело с вполне сформировавшимся сообществом.

Анализируя сеть участников только маленьких мероприятий (108 человек), мы увидели, что внутри появилось несколько отделившихся компонентов — изолированные от общей структуры компании из 2–5 человек:

Визуализация и анализ структуры сообществ с помощью графов - 5

Сеть оказалась по мощности меньше, но связность все еще остается высокой.

Теперь давайте посмотрим на визуализацию тематических направлений.

Для этого мы разделили все мероприятия на три группы:

  • мероприятия про социальные проекты (44 мероприятия);
  • мероприятия про развитие региона (18 мероприятий);
  • мероприятия про образование и технологии (10 мероприятий).

При таких параметрах построенные сети визуально отличались друг от друга. Начнем с социальных проектов, мероприятия по которым посетили 176 человек.

Визуализация и анализ структуры сообществ с помощью графов - 6

Тут мы видим большое ядро. Возможно, благодаря тому, что темы социальных проектов пересекаются друг с другом.

В развитии региона (93 человека) картина иная:

Визуализация и анализ структуры сообществ с помощью графов - 7

Тут наблюдается связность по темам: есть флагманские направления, которые порождают новые темы, привлекающие новых участников. За счет этого на графе появляются узлы, которые соединяют отдельные группы высокосвязных участников.

Теперь давайте глянем на направление образования и технологий (129 участников):

Визуализация и анализ структуры сообществ с помощью графов - 8

Видно, что люди здесь объединяются в небольшие группы по темам. Связность всего сообщества обеспечивается благодаря участникам с высокой Betweenness Centrality, то есть тем, кто одновременно интересуется несколькими подтемами. И в целом общая связность образовательного сообщества ниже, чем в двух предыдущих случаях.

Что полезного для себя нашли

  • С помощью Degree Centrality выявили топ-10 участников, у которых наибольшее количество совместно посещенных человеко-мероприятий.
  • С помощью Betweenness Centrality выявили топ-10 участников, через которых проходит наибольшее количество информации в сети.
  • Выявили узел, через который происходит связь основной сети с кластерами.
  • Выявили самые сильные пары связей — людей, которые лучше всего знакомы (топ-10 и топ-50).
  • Обозначили области для дальнейшего исследования.

В итоге мы знаем, к кому можно обратиться в случае, если потребуется развитие отдельных направлений, распространение определенной информации или внедрение идеи. Люди, занимающие центральные места в графе, смогут сделать это быстрее других.

Пересекается ли власть с бизнесом и наукой

Для ответа на этот вопрос мы специально искали региональную Точку, где все эти группы одинаково активны, и нашли такую в Томске.

При построении графа для Томска мы придерживались гипотезы, что наше пространство (Точка) в этом городе способствует перемешиванию людей из разных институциональных сфер и повышению их связности. Речь идет о представителях образования и науки, бизнеса и органов власти.

Методы анализа Томска
Одна из основных функций Точки кипения состоит в том, чтобы соединять людей, идеи и решения. Чтобы исследовать, насколько хорошо эта функция реализуется, мы используем силовую направленность сети, основанную на комбинации простых принципов:

  • узлы отталкиваются друг от друга и стремятся утечь к периферии;
  • связи между узлами сближают их.

Для достижения более реалистичного вида мы используем многоступенчатый метод (OpenOrd), поскольку многие его этапы соответствуют жизненному циклу развития сообщества: «жидкостный», «расширение», «охлаждение», «хруст и кипение» (этот цикл повторяется непрерывно с различными параметрами).

В базу для анализа попали 650 мероприятий, в которых принимали участие более 23 тысяч участников. Мы построили граф, благодаря чему удалось выделить несколько фактов и феноменов, а также построить модель попарного взаимодействия между всеми тремя категориями.

Первое. На 80% мероприятий одновременно формировались трехсторонние связи между представителями научного сообщества, бизнеса и государства. Из них 20% — это узкоспециализированные мероприятия, тематика которых важна для представителей конкретной сферы, например профессионального образования.

Визуализация и анализ структуры сообществ с помощью графов - 9

Для простоты мы визуализировали с помощью цвета институциональную принадлежность. Так мы увидели, что университетское сообщество наиболее замкнуто на себя (на графе есть выраженные фиолетовые области).

Второе. На базе наших данных можно выделить два доминирующих по составу кластера:

  • коммуникации, в которых участвуют все три игрока — университеты, бизнес и власть;
  • коммуникации, в которых участвуют только университеты и бизнес.

Визуализация и анализ структуры сообществ с помощью графов - 10
Два кластера мероприятий, доминирующих по составу участников

Среди выделенных групп (университеты, бизнес и власть) наибольшую коммуникационную активность проявляют университеты и бизнес. На графе выделены области, для которых характерна активность представителей обоих кластеров.

Третье. В регионе за прошедший год образовалось ядро участников, задействованных в интенсивных содержательных коммуникациях, которых, как правило, объединяет научно-технологическая тематика — сквозные технологии, рынки будущего, реализация стратегии научно-технологического развития. Такое взаимодействие можно увидеть на синем графе.

Визуализация и анализ структуры сообществ с помощью графов - 11

Здесь визуализация представлена таким образом, чтобы продемонстрировать, как от центра сети (ядра) отходят различные связи.

Четвертое. Благодаря графу удалось проявить феномен так называемых суперконнекторов — индивидуумов, которые связывают участников в одной или сразу нескольких тематических областях.

По нашей оценке, кандидатов в суперконнекторы около 600: примерно 1 на 23 уникальных пользователя или 1 на 38 участников мероприятий.

Визуализация и анализ структуры сообществ с помощью графов - 12

Мы ищем суперконнекторов, чтобы вовлекать их в сотворчество и коллективную работу, поскольку именно через них проходит наибольшее число коммуникаций.

Что нам дал анализ

  • Выявлены суперконнекторы — люди, которые были на многих мероприятиях и, возможно, выполняют функцию коммуникаторов в сообществе или между сообществами.
  • Выявлены темы мероприятий, которые привлекают и власть, и бизнес, и науку: это сквозные цифровые технологии, рынки будущего, стратегия научно-технологического развития.

Используя визуализацию, мы также определили и изучили множество моделей, некоторые из них изложены ниже.

Структурная прочность (Structural Strength): наша сеть все еще развивается, но тем не менее мы хотели бы обеспечить ее прочность и в связи с этим рассмотрели ее общую структуру. Центральное ядро состоит из нескольких взаимосвязанных кластеров, что позволяет избежать единой «точки разрушения» (сеть с одним центральным кластером может легко распасться, если основной кластер будет «скомпрометирован»).

Близость (расстояние) — Closeness (Distance): мы считаем, что, сокращая расстояние между людьми, мы можем стимулировать поток идей. Есть ряд характеристик, которые способствуют достижению этой цели. Например, если у идеи есть много потенциальных путей и фокусов, из которых она может быть оформлена, то увеличивается вероятность ее реализации. На графе мы получили возможность увидеть участников, которые преуспели в соединении функциональности. Некоторые в межкластерном соединении; другие в пределах кластера, что в сочетании дает значительное улучшение.

Энтропия (Entropy): смешение вещей крайне важно для того, чтобы убедиться, что новые идеи могут развиваться (этот процесс противостоит стагнации). Мы смотрим на энтропию как на макроуровне (кластер), так и на микроуровне (индивидуум) и учитываем разнообразие классификаций (тема мероприятия, принадлежность участников к институциональной сфере и т. д.). Мы думаем, что само по себе критически важно наличие многих разных конфигураций. Высокая энтропия важна для перемешивания идей и позволяет им свободно и быстро течь во многих направлениях. Низкая энтропия важна для более глубокого сосредоточения и развития идей.

Мы надеемся, что сможем стимулировать развитие сети с появлением новых свойств, которые не спланированы сверху, а появляются как будто сами по себе в ходе естественной эволюции и развития сообществ.

Оценка различий по городам

Все Точки кипения создаются по единой модели, но развиваются по-разному. Поэтому мы решили оценить структуру и связность сообществ, выделив темы, которые являются основными для каждого места.

Для примера мы вытащили данные по Точкам в Иваново и Владивостоке. Но тут стоит обозначить некоторые отличия подхода от исследований Точек в Томске или Петрозаводске:

  • мы уделили внимание типам сообществ (бизнес-сообщества, образовательные сообщества и т. д.), а не только отдельным группам. Это позволило проанализировать плотность связей не только внутри, но и между ними: замкнуты ли сообщества на себя либо же тусуются со схожими или вообще идейно другими компаниями;
  • мы сравнили результаты сетевого анализа с повесткой Точек кипения, то есть с преобладающими темами мероприятий в них.

Методы
В социальном графе мы проводили ребро между двумя участниками, если они участвовали в общих мероприятиях или проектах. Чем больше общих мероприятий посетили участники, тем короче ребро между ними. После этого мы кластеризовали участников на сообщества с помощью Fast unfolding of communities in large networks. Обычно в общие кластеры попадали участники, которые посетили много общих мероприятий. Мы выбирали большие кластеры и пытались их понятно охарактеризовать.

Точка кипения Иваново

Визуализация и анализ структуры сообществ с помощью графов - 13

Визуализация и анализ структуры сообществ с помощью графов - 14

Итак, в актив Точки кипения мы выделили тех людей, кто чаще других приходит на мероприятия, организовывает их или приходит в коворкинг. Они, наряду с суперконнекторами, обеспечивают связность.

Тематическая направленность в Иваново имеет ярко выраженный гуманитарный уклон. Связность оказалась достаточно высокой, но в то же время у направлений есть ярко выраженная обособленность, что хорошо заметно по цветовой раскраске ядра. Также на графе видно, что бизнес-сообщества скорее закрытые, а волонтеры и FashionNet — открытые сообщества (с точки зрения возможности присоединения).

Точка кипения Владивосток

Визуализация и анализ структуры сообществ с помощью графов - 15

Визуализация и анализ структуры сообществ с помощью графов - 16

Здесь мы применили иной подход, предположив, что сообщества объединяются вокруг темы. С помощью такой типологизации мы отделили ядро сообществ (кто объединился вокруг тем) от повестки (темы наиболее популярных мероприятий).

По отчету видно, что во Владивостоке тематические составляющие выражены ярче, чем в Иваново. Больше половины мероприятий так или иначе связаны с образованием, плюс заметную долю оттянули на себя IT. А граф ядра говорит о малой связности по тематическим направлениям. Возможно, что ядро там только начинает формироваться, потому и выглядит многополюсным.

Точка кипения — Москва

В Точке кипения — Москва в Малом Конюшковском переулке нас больше всего интересовало ядро.

Визуализация и анализ структуры сообществ с помощью графов - 17

На графе видно, что в «Москве» нет актива. Вместо него связующую роль выполняют методологические сообщества — те, которые объединяются вокруг методологических школ.

Кстати, на структурах «Москвы» и Иваново видна разница в подходах программных директоров: в Иваново собралось сообщество, которое в разных составах принимает участие в разных мероприятиях, обеспечивая связность (таких людей мы называем «актив Точки»). В «Москве» же наоборот — мероприятия, как правило, проходят без таких людей, но зато это обеспечивает бОльшую проходимость в Точке, и в результате больше людей узнают про то, чем мы занимаемся.

Что мы получили

  • Каждая региональная Точка обеспечивает определенную повестку и становится площадкой для общения и развития конкретных людей. Кластеризация помогла нам определить Точки, в которых повестка проседает.
  • Мы научились сжимать кучу разношерстных данных о сообществах Точки в одну картинку. Программные директора, которые отвечают в наших площадках за сообщества, теперь могут быстро оценивать структуру Точки, с которой работают.

Общий анализ по всем регионам

Давайте посмотрим, что интересного можно найти внутри всей системы Leader-ID. На момент проведения данных исследований у нас было полмиллиона участников. В целом мы провели ряд анализов, но пока расскажем про два из них:

  1. Определили, как можно дифференцировать образовательное сообщество и какие темы связывают различные группы, посещающие мероприятия под общим грифом «Образование».
  2. Выявили общие тенденции для отдельных социальных групп с помощью методов сетевого анализа (например, вовлечены ли люди старше 50 лет в нетворкинг).

Но обо всем по порядку.

Топовые темы в образовании

Для начала нам нужно было выяснить, связаны ли друг с другом лидеры образовательных проектов. Для этого мы сделали следующие предположения:

  1. Лидеры ходят на интересные для них мероприятия или организуют их, поэтому мы снова можем обратиться к подходу, описанному выше, и проанализировать связность участников мероприятий.
  2. Поскольку сфера образования очень широкая, нужно сделать допущение про темы, объединяющие людей настолько, что мы можем назвать их сообществами. Мы выделили следующие подтемы: дошкольное образование, школьное образование, высшее образование, среднее профессиональное образование, образование для взрослых.

Далее мы проанализировали темы мероприятий и выяснили, что участников больше всего интересуют три вещи:
1) профессиональный рост (проблемы профессионального развития, образование педагогов, повышение квалификации), причем больше всего в детском, школьном и высшем образовании;
2) профессии будущего (навыки будущего, востребованные компетенции, Атлас новых профессий), являющиеся предметом обсуждения участников мероприятий по детскому, высшему, среднему профессиональному образованию и образованию взрослых;
3) высокие технологии (сквозные технологии, технологии в образовании), которые касаются школьного образования, среднего профессионального образования и образования для взрослых.

Теперь граф:

Визуализация и анализ структуры сообществ с помощью графов - 18

Главный вывод — наше предположение про разделение участников мероприятий в сфере «Образование» оправдалось: на графе видно, что плотность взаимодействия внутри этих пяти подгрупп выше, чем плотность связей между ними. В противном случае граф был бы визуально похож на тот, что мы получили в Томске.

Кстати, из-за огромного количества вершин отрисовывали мы этот граф при помощи Gephi, в то время как предыдущие создавались с использованием NetworkX.

Что можно сказать про тех, кому 50+

Мы задались вопросом, достаточно ли у нас данных, чтобы оценить включенность людей возраста 50+ в активную социальную жизнь. Оказалось, что да — таких участников у нас более 60 тысяч, то есть каждый десятый.

Начнем с графа связности участников возраста 50+. Он получился такой:

Визуализация и анализ структуры сообществ с помощью графов - 19

Нас вдохновляет, что иногда можно просто любоваться результатами сетевого анализа и бесконечно смотреть на эту рок-гитару. Тут все очень хорошо.

Далее мы попытались проанализировать, какие темы интересуют этих людей, какие организации они представляют и что именно их связывает. В итоге получили следующие (неожиданные для нас) инсайты:

  1. Процент предпринимателей среди участников Leader-ID старше 50 лет в 2,5 раза выше среднего значения по стране. Выяснилось это после анализа мест работы 45 тысяч участников Leader-ID старше 50 лет, где слова «Основатель», «Founder» и их синонимы встречаются у 8% выборки при среднем значении 3%.
  2. Участники Leader-ID старше 50 лет интересуются теми же темами, что и участники других возрастов: образование, стратегическое управление, инновации, наука и исследования, государственное управление.
  3. Плотность связей участников Leader-ID старше 50 лет не меньше, чем плотность связей участников других социальных категорий: иными словами, нетворкинг — это общий тренд для всех людей.

В сухом остатке

Визуализация с помощью графов — крутая штука. В нашем случае мы смогли оценить ядра сообществ, связанность и взаимное проникновение по отдельным направлениям, темам и институциональным сферам. На следующем шаге мы будем вытаскивать ключевые темы и повестки, которые объединяют людей из разных сфер, и смотреть, как эти направления можно развивать дальше.

Плюс мы выявили людей-суперконнекторов, с которыми теперь планируем активно взаимодействовать и помогать в различных организационных вопросах.

Автор: Leader-bot

Источник


* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js