Международная популярность Сноудена — миф или реальность? Результаты глобального мониторинга социальных медиа

в 14:43, , рубрики: big data, Facebook, twitter, аналитика соцмедиа, Блог компании PalitrumLab, Вконтакте, Исследования и прогнозы в IT, социальные сети, метки: , , , ,

Эдварда Сноудена не существует и о нем говорят только в России. «Сноуден — предатель, враг и изменник», — считают жители США. «Сноуден — международный герой и пример для подражания», — говорят… ну где-то наверняка говорят, думали мы. Когда мы приступали к работе над новой задачей, нам казалось, что тема Эдварда Сноудена заинтриговала весь мир. Поэтому задача, поставленная нашими партнерами из фонда «Vox Populi», специализирующегося на исследованиях общественного мнения в социальных медиа, казалась нам довольно простой: оценить интерес населения к ситуации по Сноудену в мире, и в России и США в частности. Но мониторинг соцмедиа для социологических исследований — сущность новая, а потому вдвойне интересная: во-первых, никогда не знаешь, какой именно результат получишь; во-вторых, восхищаешься возможностями социовселенной, созданной человечеством. Результат и в этот раз получился несколько бОльшим и довольно неожиданным: мы проанализировали многоязычный поток сообщений из 230 (!) стран мира. О том, как мы разделяли по языкам и геолоцировали это царство Вавилонское — под катом.
Международная популярность Сноудена — миф или реальность? Результаты глобального мониторинга социальных медиа

Геолокация сообщений

За прошедший год мы неоднократно проводили исследования по разным странам мира и для разных языков. Но всегда это все-таки были одна или несколько близлежащих стран: для выборов во Франции для анализа отбирались мнения французов, для выборов в Венесуэле выбирались испаноязычные сообщения и т.д.

Уже тогда стала очевидной разница в ментальности людей в использовании соцмедиа: например, для французов процент геолокации (геопривязки) сообщений Twitter на уровне 75%, для венесуэльцев — 80%, а в России — всего 44%.

Первоначальный анализ ситуации со Сноуденом показал, что интерес к теме — общемировой и многоязычный. А значит мы могли на практике оценить достоинства (или недостатки) новых расширенных модулей геолокации и автоопределения языка, на разработку которых были брошены значительные силы разработчиков и лингвистов.
Почему при геолокации нам так важно понимать язык сообщения? Всё дело в том, что для определения местоположения автора мы анализируем не только данные профиля, но и его посты, твиты, комментарии и т.п. То есть, мы учитываем гео-данные из профиля автора, обновляем их при поступлении каждого нового сообщения. Учитываем гео-метки к сообщениям автора. Учитываем гео-информацию внутри сообщений. Делаем связку профиля автора с его профилями в других соцсетях, и учитываем гео-данные там. Прогоняем это все через наши гео-словари, чтобы привести данные из разных форматов указания гео к единому виду и сделать связку город-регион-страна.

Тема Сноудена позволила исследовать «температуру по больнице» для геолокации соцмедиа для всего мира. Для анализа использовались сообщения Twitter и Facebook, плюс ВКонтакте для русскоязычных сообщений. Итог: геолокация определяется для 57.8% от всех авторов на уровне страны и 41.4% с точностью до города.

Фактография по итогам исследования (данные с 1 по 20 августа):

— свыше 600 000 сообщений;
— 230 000 уникальных авторов;
— из 230 стран мира (8 000 населенных пунктов)!

Международная популярность Сноудена — миф или реальность? Результаты глобального мониторинга социальных медиа
Вот такая вот неожиданность, думаю, для многих из нас — оказывается в мире больше 200 стран (и территорий). Например, есть такие вот красивые названия: Уоллис и Футуна, Святая Люсия, Буве, Майотта, Кирибате и даже Ниуэ :-)

Для анализа сообщений использовались написания фамилии Сноуден в разных странах:
США, Англия, Германия, Франция, Польша, Чехия, Венгрия, Румыния, Молдавия и др.: Snowden
Болгария: ЕДУАРД СНОУДЪН
Белоруссия, Украина: Эдвард Сноуден
Казахстан: Эдвард Сноувден
Словакия: Edward Snowden, Edwardovi Snowdenovi
Македония: Едвард Сноуден
Сербия и ex-Югославия: Edward Snowden, Едвард Сновден Албания Edvard Snovden
Азербайджан: Edvard Snouden
Греция: Σνόουντεν

Тема оказалась очень интересна для наших лингвистов. Кроме проверки нового модуля определения языка (17 языков) и геолокации, необходимо было найти практическое конкретное решение для тонализации не просто коротких текстов (эту задачу решили несколько месяцев назад), но и очень-очень сленговых выражений, проявляющихся в первую очередь в твитах, например:

U r wrong Obama. Snowden IS a patriot. It is u who r the traitor to the United States
Источник: twitter.com | автор: Jim Hackney | США, Спрингфилд | 14.08
21:05:34

В пул также попали сообщения на арабском, иероглифических или местных языках, например:

غلاق خدمة Lavabit للبريد الإلكتروني الآمن لارتباطها بــ Snowden: لن أكون شريكاً في جرائم ضد الشعب الأم… t.co/2FzhZME3wJ #news
Источник: twitter.com | автор: TAlbahussain | Дублей: 49 Саудовская Аравия, Эр-Рияд | 10.08 18:46:52

Quyêt định chờ xem mưa sao băng. Haiz, lão Snowden rât "đang yêu" nha, muôn giêt qua B-)
Источник: facebook.com | автор: Kim Eun Won | Республика Корея, Сеул |
12.08 18:45:38

RT @supinya: กรณี #Snowden ปล่อยข้อมูลว่าสหรัฐสอดส่อง โดนไล่ล่าแทบแย่ เพราะไม่มีรัฐใด
อยากยอมรับว่าสอดส่องจริงแต่ด้านตำรวจไทยภูมิใจนำเสนอมาก แปลกแต่จริง
Источник: twitter.com | автор: Natdanai | Таиланд, Пхукет | 13.08 15:36:58

Такие сообщения использовались для оценки интереса к теме, но не тонализировались (не проводились через модуль определения тональности сообщения).

Результаты исследования по теме Сноудена опубликованы в «Коммерсанте».

Немного жаль, что не успели расширить на мировую карту наш картографический модуль, заточенный под регионы России, США и Европу.

Будем работать и над картографией, и над еще целым комплексом новых задач, которые выявило наше первое «мировое» исследование соцмедиа. Как будет что-то новое-интересное — обязательно опубликуем в нашем корпоративном блоге. До новых встреч!

Автор: CvetKomm

Источник

Поделиться

* - обязательные к заполнению поля