- PVSM.RU - https://www.pvsm.ru -

Social media mining в Университете ИТМО

Сегодня мы решили подготовить для вас краткую новостную заметку о новых проектах ученых и программистов Университета ИТМО. Остановимся на social media mining’е и задачах, связанных с определением географических предпочтений пользователей популярных социальных сетей.

Social media mining в Университете ИТМО - 1 [1]Фотография Franklin Heijnen [2] CC-BY [3]

Найти лучшие места для туристов с помощью Instagram

Задача: выявить локации (музеи, рестораны, кафе, достопримечательности и места для отдыха), которые интересуют главным образом местных жителей. С помощью полученных результатов расширить перечень наиболее востребованных и привлекательных мест в городе и разнообразить туристические путеводители.

Для решения задачи с помощью social media mining’а была выбрана социальная сеть Instagram. Команда проекта, состоящая из сотрудников Института наукоемких компьютерных технологий (НИИ НКТ [4]), объясняет свой выбор достаточно активной пользовательской базой этой социальной сети и прозрачными поведенческими паттернами, которые позволяют уточнить результаты проводимого анализа.

Один из первых шагов на пути к анализу данных заключался в составлении профиля туриста и отсеве соответствующих пользователей. Среди основных признаков “туристического” поведения были выделены: кучность Instagram-публикаций из центральной части города (например, в Санкт-Петербурге туристы главным образом публикуют фотографии мест, находящихся на Невском проспекте) и ограниченное временное “окно” присутствия в городе (согласно официальной туристической статистике, продолжительность пребывания в городе гостей обычно не превышает пары недель).

Поставленная задача состояла в поиске в поиске мест, о которых туристы практически не знают. Поэтому для того, чтобы получить “инсайдерскую” информацию, было решено отбросить наиболее известные туристам локаций. Их популярность и посещаемость таких мест как Казанский собор, Эрмитаж и аэропорт Пулково не вызывают сомнения, поэтому эти и другие востребованные туристами места были заведомо исключены из проведенного исследования.

Стоит отметить, что результаты [5] анализа (Yandex-карта [6] популярных мест Санкт-Петербурга по категориям) были представлены [7] на профильной конференции и вышли в виде научного материала [5] в журнале Procedia Computer Science.

Предсказать географические предпочтения пользователей с помощью Twitter, Instagram и Foursquare

Задача: рекомендовать пользователям локации с помощью перекрестного анализа информации сразу из трех социальных сетей.

Для реализации задачи группа ученых выбрала модель обучения с учителем. Здесь потребовалось учитывать не только геотеги, отражающие определенные места, рекомендованные пользователями Foursquare, но и текстовые данные (Twitter) плюс визуальные предпочтения на основе публикаций в Instagram.

В ходе работы была реализована возможность уточнения рекомендаций за счет использования поведенческой информации от наиболее похожих друг на друга пользователей. Профилирование было проведено с помощью кластеризации на многослойном графе, который включал в себя данные из трех социальных сетей.

Если говорить простыми словами, то такая система может порекомендовать пользователю наиболее подходящие спортивные заведения, если он сам интересуется спортом и публикует соответствующие твиты или публикации в Instagram.

Работа была проведена учеными Университета ИТМО вместе с коллегами из Сингапура. Для этого был собран соответсвующий датасет для жителей Нью-Йорка, Сингапура и Лондона, а результаты исследования были представлены на конференции [8] International ACM SIGIR Conference on Research and Development in Information Retrieval и отражены в статье [9] «Cross-Domain Recommendation via Clustering on Multi-Layer Graphs».

Другие материалы из нашего блога на Хабре:

Автор: itmo

Источник [13]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/issledovaniya-i-prognozy-v-it/263041

Ссылки в тексте:

[1] Image: https://habrahabr.ru/company/spbifmo/blog/336792/

[2] Franklin Heijnen: https://www.flickr.com/photos/franklinheijnen/12518358145/in/photolist-Xm5m2C-rABjpx-awCs9t-rnmWAr-dWUWcb-djYHXr-dnK7ge-a6Dc2B-bGZC4Z-dKNr1F-axLnAb-dSxX4V-rw6CxU-7FZa71-fgPHkF-r1QrfW-rs9wfQ-69pM62-awKJCU-pYWo6m-rCm2qW-rt5ADA-hhwd2Y-arrX4o-Umvff4-dhZgBu-r2qJGi-dZyY8d-aofsGZ-ryoUCz-gJoXJA-qyyzQ1-aCW4p2-ag2tvg-a8LFYc-awqjzQ-fdN2B3-qAS2qj-962JWV-dK3vYB-wiTTYt-f35Laz-qAZXuz-6tXvwF-qUC1YQ-qztGAL-k5cRK8-qR8EN7-965C2G-qCHRJC

[3] CC-BY: https://creativecommons.org/licenses/by-sa/2.0/

[4] НИИ НКТ: http://escience.ifmo.ru

[5] результаты: http://www.sciencedirect.com/science/article/pii/S1877050917306981

[6] Yandex-карта: https://yandex.ru/maps/2/saint-petersburg/?um=constructor%3A36b26e261a1884e6834caf033f9cc2dc1a2902c290832faa3a8d926e4823199a&source=constructorLink&mode=usermaps&ll=30.346053%2C59.932510&z=14&ncrnd=2562

[7] представлены: http://www.iccs-meeting.org/iccs2017/

[8] конференции: http://sigir.org/sigir2017/

[9] статье: http://farseev.azurewebsites.net/papers/farseevC3R.pdf

[10] Как читать научные статьи: советы ученых: https://habrahabr.ru/company/spbifmo/blog/336672/

[11] Ненаучная революция: как не разориться на фейковых инновациях: https://habrahabr.ru/company/spbifmo/blog/336142/

[12] Дайджест Университета ИТМО: учеба, спортивное программирование и наука: https://habrahabr.ru/company/spbifmo/blog/336190/

[13] Источник: https://habrahabr.ru/post/336792/