Информационная безопасность / [Из песочницы] Анонимизация и деанонимизация в сети Интернет

в 13:14, , рубрики: Новости, метки: , ,

Информационная безопасность / [Из песочницы] Анонимизация и деанонимизация в сети Интернет
Топик адресован в первую очередь не айтишникам, но их жёнам, девушкам, тёщам, родителям, а также дедушкам и бабушкам, которые, вкусив прелести Интернета, скорее всего не задумываются, насколько глубоко Всемирная сеть встроена в общество, и что, помимо всего полезного, Интернет несёт объективные риски для их собственной безопасности.
В тексте обозначены аспекты пользования Интернетом, касающиеся как процесса регистрации пользователя в различных местах коммуникации в сети (блогах, форумах, социальных сетях, отзывах о товарах в магазинах), так и стилей речи в таких местах. Показано какие риски может иметь продолжение внесетевых стилей общения (разговорного-бытового, официально-делового, публицистического) в область общения в сети.
Введение

Намеренно не стану касаться технических сторон обеспечения анонимизации в сети, поскольку это обширная тема, лежащая как криптографии, так и в реализации сетей, программного обеспечения и аппаратных комплексов. Также я не рассматриваю различие в доступе к профайлам для гостей и для зарегистрированных пользователей, так как интересующиеся сбором информации лица найдут способ зарегистрироваться даже в случаях ограниченной регистрации. Для деанонимизации пользователя практически всегда достаточно открытой информации и открытых способов её обработки, в первую очередь правильных поисковых запросах (о запросах см. например недавний топик о читателях и добавлении в избранное). Математически деанонимизация описывается выявлением новых областей пересечения множеств, отражающих следы пользователя в сети.
Терминология

Чтобы избежать путаницы, приведу здесь вольные определения используемых терминов:Пользователь — лицо (группа лиц), представленное в данном месте коммуникации Всемирной Сети никнеймом пользователя, его профайлом и, иногда, аватаром. Везде далее будем считать, что пользователь является зарегистрированным пользователем

Анонимизация — процесс удаления персональных данных пользователя с целью сокрытия идентификации пользователя с реальной личностью пользователя

Деанонимизация — процесс частичного либо полного раскрытия личности пользователя

Анонимность — состояние, определяющее степень несвязанности профайла с реальной личностью пользователя

Регистрация пользователя — процесс привязки личных данных к профайлу

Профайл — набор персональных данных данного пользователя

Никнейм (прозвище) — имя пользователя

Аватар (юзерпик) — графическое представление пользователя

О регистрации пользователя

Первое, о чём следует знать, когда желаете связать себя с воображаемым персонажем, например на форуме, это то, что после прочтения и согласия с правилами (дисклеймером), Вы начинаете играть по правилам администрации ресурса, обязаны в хотя бы минимально ей доверять. Иными словами, Вы в той или иной мере делегируете администрации свои персональные данные (повторюсь, не касаюсь технических возможностей, позволяющих сделать вплоть до хеширования всех данных пользователя).
Минимально возможная регистрация — связка логина (учётной записи) и пароля в случае, когда логин совпадает с никнеймом. Профайл в таком случае состоит из одного никнейма (и порядкового номера пользователя). В нагрузку может быть добавлена дата регистрации. Согласитесь, что такой минимализм в наборе персональных данных встречается нечасто.
Гораздо чаще во время регистрации присутствуют поля о дате рождения, местоположении пользователя и его поле.
Дата рождения

Наличие первого иногда необходимо законодательно — например для ограничения доступа по возрасту ко «взрослым» материалам. Пункт «скрывать мой возраст» присутствует не всегда; встречались курьёзные случаи, когда даже при наличии отмеченного «скрывать мой возраст» никнейм пользователя появлялся во фрейме «Сегодня день рождения у: ...». Для идентификации пользователя отличия в указании только дня рождения от полной даты рождения несущественно. При регистрации поле исключительно «год рождения» (без дня и месяца) попадается редко.
Местоположение

Поля, относящиеся к местоположению пользователя чаще всего являются «страной» и «часовым поясом». Нередки поля «город». Здесь следует понимать, что если Вы проживаете в городе с численностью населения менее N (допустим, ниже тридцатой позиции списка), то при достоверно указанной информации о Вашем местоположении, увеличивается число способов, по которому Вашу личность можно идентифицировать (предельный случай — появляется способ «все со всеми знакомы»).
В формах регистрации на форумах, предназначенных для профессионального общения, поддержки и обмена опытом бывают (обязательные!) поля, выявляющие настолько специфические области (профессиональные интересы, используемое ПО и оборудование, и даже подразделение, где работает пользователь), что анонимность де-факто снимается.
E-mail и IM

В большинстве случаев регистрации предлагается оставить e-mail адрес, использовать который следует для подтверждения регистрации и в целях восстановления забытых паролей. Чаще всего почта по умолчанию скрыта в профайле ото всех, кроме пользователя, хотя виной тому не забота о приватности пользователя, а защита от спама. Почтовый адрес сам по себе, бывает, содержит данные об имени, фамилии или годе рождения пользователя, а то и все эти данные сразу: «ivan.ivanov85@example.com». Также существуют сервисы «одноразовой почты» (наподобие 10 Minute Mail), которые часто используются для подтверждения регистрации пользователями, не желающими использовать для этой цели своей основной почтовый ящик. Степень анонимизации внутри почтовой коммуникации рассматривать не стану, поскольку специфика закрытых каналов совершенно иная, нежели открытых для всех (и для поисковых роботов в том числе) профайлов. Упомяну лишь, что почтовая переписка может быть случайно или намеренно обнародована, например, при невнимательной пересылке третьему лицу приходит не определённый фрагмент письма, а вся цепочка писем. Многие формы предлагают оставить адреса средств обмена мгновенными сообщениями. Все такие средства имеют собственные профайлы, хранящие личные данные пользователя. Иногда в строгой форме, вплоть до имени, фамилии и местоположении пользователя.
Мультиник

Здесь под мультиником понимается множественное использование пользователем одного никнейма в различных социальных ресурсах интернета. Множественное использование никнейма значительно уменьшает анонимность пользователя — профайлы из разных мест с точки зрения деанонимизации могут быть просто объединены. В случае наличия множества (в смысле математической логики) друзей-френдов у пользователя хотя бы на одном из сайтов, где пользователь активен под неким именем, часть такого множества может быть реконструировано и на другом сайте «вокруг» этого же никнейма.
Социальные сети

В топике Анонимность против открытости в плакатном формате рассмотрено «противостояние» этих подходов. В своём топике я описываю ситуацию пользователя, находящегося между двумя такими полюсами, когда нет и безнаказанности анонимов и единоличности пользователя соц. сети. Сохранение остатков анонимности при открытом имени и фамилии практически невозможно. И социальные сети стремятся максимально охватить жизнь человека и представить её в сети.
Стили речи и содержание текстов

В общем случае в сети используются такие же речевые стили, которыми человек пользуется в живом общении с друзьями, коллегами, случайными прохожими. Некоторые лингвисты полагают, что для идентификации человека достаточно лишь определённого объёма его текстов. Простейшую лингвистическую экспертизу проделывает каждый человек, когда читает какой-либо текст. Сразу виден образовательный уровень человека. Он плохо скрываем под масками любых стилей речи и при любом виде общения. Образовательный уровень влияет на активный словарный запас. Важнее не его размер, а наличие в нём профессиональных терминов и относительная частота их использования. То есть, Вас не выдаст то, что Вы пишите богатым синонимами языком, но если Вы в своих текстах свободно употребляете какую-либо терминологию (отличную от терминологии тематики сайта), то это может указать либо на Вашу специальность, либо на продвинутый уровень в определённом хобби. Деятельность человека всегда влияет на его речь. Так, канцеляризмы юриста не исчезают даже при общении в быту («произведи уборку в помещении» вместо «уберись в комнате»).
Профессиональная тематика

Наличие грамотных сообщений и комментариев в узкоспециальной области само по себе резко выявляет данного человека. Но зачастую, грамотность таких комментариев может определить лишь эксперт в данной области. Профессионалы всегда имеют публикации, работы, статьи. Научная этика, например, требует цитирование и ссылки на исследования. От этики в одночасье отказаться сложно, в итоге анонимный автор глубокой и грамотной статьи скорее всего даст ссылку либо на свою работу, либо на работы авторов, на которых он ссылался в своих трудах, либо на работы, которые ссылаются на него.
Ошибки

Ошибаются все. Но, может Вы систематически ошибаетесь в каком-то специальном слове? Проверяйте свои тексты спеллчекерами (средствами проверки орфографии).
Кросспосты

Тема очень знакомая пользователям Хабрахабра. Наличие идентичных анонимных текстов (или их фрагментов) на различных сайтах, при последующих комментариях «от автора» свяжет воедино никнеймы пользователей, которые их опубликовали. Публикуя в разных местах одни текст, Вы в открытую кричите «я там-то и там-то!». От недоброкачественной копипасты (без ссылок на источник), отличаются по форме и наличию автора в дискуссиях и комментариях.
Друзья (френды)

Как было сказано выше, наличие сообществ «друзей» даже в случаях когда друзья видны под никнеймами активно способствует деанонимизации. Если кто-либо из друзей знает лично пользователя, желающего сохранить анонимность, он может случайно его деанонимизировать (банальное «посмотрите в блоге у Миши» открывает идентификацию одного из френдов автора сообщения с именем Миша).
Анонимность публичных людей

Здесь всё достаточно просто: публичный человек может быть либо полностью деанонимизированным, когда его статьи, сообщения и комментарии являются продолжением его политики общения в жизни, либо полностью анонимизированным, в таком случае все его социальные действия в интернете должны обнаруживать минимально возможное число связей с его личностью — до самого отказа от регистрации на сайте. Все промежуточные состояния будут перескакивать в область деанонимизации данного публичного человека.
Наконец, отчасти деанонимизировать может даже время отправки сообщений. Если человек чаще всего отправляет сообщения в 3:00 ночи — 7:00 утра, то может быть он полуночник, либо живёт в далёком часовом поясе (впрочем, могут быть неверны настройки часового пояса на данном сайте).
Примеры рисков, связанных с деанонимизацией

Пример первый

Наверное самая распространённая деанонимизация. Человек оставляет в блоге объявление «Продам швейную машину. Звонить по телефону… или писать в л.с.» Предоставление телефонного номера значительно снижает анонимность автора объявления.
Пример второй

Человек с никнеймом pavel123, живущий в стотысячном городе, оставляет на местном форуме тему «кто может взять канарейку на время отпуска», в которой просит добрых людей в данные сроки посмотреть за его любимой птицей. Если в профайле на форуме содержится дата рождения и человека в действительности зовут Павел, то пользователь pavel123 с очень большой вероятностью деанонимизируется. У злоумышленников появляется информация о том, что его жильё будет пустым в течение названного срока. Сведения об имени и дате рождения при лёгкой доступности баз данных позволяют сопоставить личность пользователя pavel123 с некоторым Павлом, а Ф.И.О. последнего — связать с адресом, где он зарегистрирован. Если адрес проживания Павла совпадает с адресом в публичных легкодоступных базах данных, то риск деанонимизации в данном случае — сохранность его дома/квартиры.
Примеров, связанных с хорошей анонимизацией привести сложно — на то она и хорошая. Вспоминается прежде всего Сатоси Накамото, одно перечисление попыток деанонимизации которого походит на хорошую беллетристику (см. топик Поиск создателя Bitcoin).
Выводы

В настоящее время пользователь в местах коммуникации в Интернете вправе распоряжаться своей анонимностью (в случае России, стран Евросоюза, США и т.д.). Важно знать, что если Вы не хотите раскрывать свою личность, нужно придерживаться определённых правил общения и внимательно смотреть какая именно информация будет показываться в вашем профайле (предварительно можно посмотреть профайл нескольких произвольных пользователей данного сайта). Также крайне нежелательно использовать одинаковые никнеймы при регистрации на различных сайтах. Если Вы когда-либо планируете указывать коммерческую информацию (пусть даже в комментарии захудалого непопулярного блога), при регистрации предоставляйте минимально возможную для Вашей идентификации информацию. Желательно проводить простейший лингвистический анализ своих текстов и пользоваться проверкой орфографии.
С глобальной точки зрения будет интересным посмотреть, по какому сценарию пойдёт ситуация с «промежуточной анонимностью» форумов и блогов — займут ли все позиции социальные сети, будет ли анонимность ограничена законодательно, либо всё останется как и сейчас?
Возвращаясь к картинке: в Интернете можно определить, какого окраса Ваш хвост и какого размера ошейник Вы носите.
Литература
habrahabr.ru/blogs/design/134595Е.И. Галяшина. Лингвистическая безопасность речевой коммуникацииru.wikipedia.org/wiki/Автороведческая_экспертиза
P.S. В топике не упомянуты OpenID, «лайки» и другие технологии, упрощающее социальную жизнь человека в Интернете — всё невозможно уместить в формате одной статьи.


* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js