Деанонимизация через генетическую информацию

в 1:27, , рубрики: анонимность, биоинформатика, биология, Биотехнологии, будущее здесь, геном, гены, приватность, метки: , , , ,

Краткая суть:
В Сети в открытом доступе некоторое время назад появились базы данных с генетической информацией людей (информацией разного уровня детализации — от полных последовательностей (сиквенса) всего генома до ограниченной информации по коротким тандемным повторам Y-хромосомы (Y-STRs). Например, энтузиасты делятся информацией о своих Y-STRs (гаплотип) на генеалогических сайтах для выяснения родственных связей и поиска дальних родственников, эти данные не анонимны. Так же в свободном доступе находится анонимная медицинская генетическая информация, например из научного проекта "1000 геномов человека" (проект по полной расшифровке геномов тысячи разных людей), где анонимность доноров ДНК поддерживается по этическим причинам.

Здесь начинается самое интересное. Генеалогические базы данных (даже весьма плохо заполненные, но тем не менее) позволяют деанонимизировать людей. Например, показано, что в случае искусственного оплодотворения спермой от анонимного донора, использование генеалогических баз данных позволяет узнать по крайней мере фамилию настоящего биологического отца ребенка (то есть через очень дальних родственников, засветившихся в базе, узнать, из какой семьи был донор), а при наличии дополнительной информации, такой, как место проживания и т.п., позволяет однозначно идентифицировать биологического отца. Недавно было показано, что находящиеся в свободном доступе анонимные генетические данные, плюс дополнительная информация о возрасте и т.п., позволяют точно установить личности примерно 50 анонимных доноров ДНК из проекта «1000 геномов человека». Это весьма настораживающее достижение, так как полная генетическая информация этих людей, находящаяся в открытом доступе, содержит данные об их предрасположенности к тем или иным заболеваниям и т.д., она может быть корыстно использована страховыми компаниями и подобными организациями.

Деанонимизация через генетическую информацию

Если Вам интересны детали и подробности, добро пожаловать под кат.

Введение

Некоторое время назад была выдвинута теория, что для точной идентификации человека в современном мире достаточно 33-х бит информации. Комбинируя различные известные о человеке сведения, мы уменьшаем информационную энтропию, сужая круг возможных вариантов, и, в конце концов, точно идентифицируя личность. Абсолютно очевидно, что информация о людях, находящаяся в открытом доступе — профили социальных сетей, данные, указанные при регистрации на многочисленных веб-сервисах и т.д., способна напрямую помочь в деле деанонимизации человека, зарегистрированного в соц. сетях и на прочих сайтах, собирающих информацию о пользователях. Менее очевидно, что интеллектуальный анализ данных (data mining) может достаточно достоверно дать множество информации о человеке, не указанной напрямую в его профиле, основываясь лишь на весьма косвенной информации, например, на Фейсбук-лайках: www.pnas.org/content/110/15/5802. Авторы этой работы могут правильно отличить республиканца от демократа в 85% случаев, а черного американца от белого — в 95% случаев. Однако есть еще один источник информации о людях, неочевидный для большинства айтишников — открытые базы данных генетической информации. Их прелесть заключается в том, что самому человеку вовсе не обязательно оставлять свою генетическую информацию в открытом доступе, чтобы быть идентифицированному — генетической информации его ребенка достаточно, чтобы через очень дальних родственников (отделившихся даже 8 и более поколений назад), засветившихся в базе, определить по крайней мере семью, из которой происходит папаша (а при наличии дополнительной информации — найти и самого папашу). Если же Ваша генетическая информация находится в открытом доступе, пусть даже и анонимно, шанс достоверной идентификации Вашей личности достаточно высок.

Немножко генетики

Деанонимизация через генетическую информацию
Все мы помним со школы, что в каждой клетке нашего организма есть ДНК, в которой закодирована наша генетическая информация. Всего в клетках тела человека 46, а точнее — 23 пары хромосом, при этом от каждого из родителей нам достается по одному 23-х хромосомному комплекту. С одной стороны, генетическая информация разных людей достаточно сходна: например, если мы возьмем только белок-кодирующие области ДНК людей, то их сходство даже с белок-кодирующими областями ДНК шимпанзе составляет примерно 99%, то есть у людей между собой они еще более сходны. С другой стороны, в ДНК есть много областей, которые не очень генетически стабильны, например, так называемые короткие тандемные повторы (STRs, short tandem repeats). Это участки ДНК, в которых короткая последовательность длиной 2-4 нуклеотида повторяется более 10 (до ста) раз. Такие области не очень удобны для копирования и клеточная машинерия для копирования ДНК часто лепит на этих повторах ошибки. В результате даже ближайшие родственники имеют очень похожие, но тем не менее несколько различающиеся последовательности ДНК в этих повторах. Чем дальше родственная связь — тем больше различий накапливается, при этом по количеству различий можно даже предположить, сколько поколений назад произошло разделение между данными ветвями семьи. Интересна еще одна деталь. Среди 23 пар хромосом есть особенная пара — так называемые половые хромосомы, XX у женщины и XY у мужчины. Тут наследование работает следующим образом — так как у женщины генотип XX, женская яйцеклетка всегда несет X-хромосому. Сперматозоид же может нести либо X, либо Y-хромосому, так как у мужчин генотип XY. Таким образом, пол ребенка всегда определяется сперматозоидом и есть еще интересное свойство — Y-хромосома всегда наследуется по мужской линии, от деда к отцу, от отца к сыну и тд (X-хромосома того же мужчины приходит от мамы и может быть наследована ей как от бабушки по отцу, так и от бабушки по матери, статистически с вероятностью 50%). Так как фамилия обычно достается нам от отца, короткие тандемные повторы, находящиеся в Y-хромосоме ( en.wikipedia.org/wiki/Y-STR ), наследуемой только от отца к сыну, могут быть использованы для установления фамилии человека. Хотя в принципе для оценки степени родства могут использоваться STRs из любых хромосом, Y-хромосома из-за особенности своего наследования позволяет четко очертить наследование по мужской линии.

Технические детали: разные уровни детализации генетической информации

Теперь поговорим о том, какого уровня детализации бывает доступная генетическая информация. Разумеется, самой полной генетической информацией является полная последовательность (сиквенс) всего генома. Первый проект «Геном человека» шел 13 лет, бюджет проекта составил примерно 3 миллиарда(!) долларов. Однако, в ходе этой работы были разработаны и доведены до ума технологии, которые чуть позже позволили секвенировать геном одного человека за 2 месяца и миллион долларов. Хотя за последние годы стоимость секвенирования продолжает стремительно падать и еще не достигла дна (поставлена сверхзадача достигнуть стоимости в 1000 долларов за геном), тем не менее, это все еще дорогое удовольствие, недоступное обычным людям. Зато был запущен проект "1000 геномов человека". Его цель — собрать достаточно полный каталог генетических различий между людьми, для этого были взяты анонимные образцы ДНК у людей разных рас, из разных стран, чтобы получить наибольшее разнообразие геномов в пределах этой тысячи. В настоящий момент основная часть секвенирования закончена и анонимные геномные последовательности лежат в свободном доступе: www.1000genomes.org/home, чтобы ученые могли их спокойно анализировать и сравнивать (вот уж где непочатый край работы для data mining!). По полной последовательности даже сейчас можно много что сказать о человеке — определить его предрасположенность ко многим заболеваниям, таким, как рак или болезнь Альцгеймера, достоверно определить его расу, во многих случаях достоверно определить цвет глаз и так далее — недавно была даже найдена корреляция между некоторыми генетическими маркерами и уровнем образования.

Менее информативными, но гораздо более дешевыми и быстрыми являются гибридизационные методы, например, гибридизация на чипе. В данном случае мы не определяем полную последовательность всего генома, а спрашиваем — какой из известных возможных вариантов присутствует в данном конкретном геноме? Есть такое страшное слово SNP — single nucleotide polymorphism, одна из целей проекта «1000 геномов человека» как раз и заключается в поиске и характеризации таких однонуклеотидных полиморфизмов (когда последовательность ДНК двух людей отличается в некотором месте на один нуклеотид). Многие из SNP являются генетическими маркерами предрасположенности к раку и другим заболеваниям, поэтому для медицинских целей не обязательно секвенировать весь геном — достаточно прогнать гибридизацию на чипе, посмотреть, какие SNP, для которых известно, что они являются маркерами определенных заболеваний, присутствуют у пациента и сделать вывод о его предрасположенности к этим заболеваниям. Базы данных SNP тоже находятся в открытом доступе.

Еще менее информативной, но достаточной для идентификации человека, является информация о его гаплотипе — особенностях его коротких тандемных повторов (STRs), о которых мы уже говорили выше. Технически профиль STRs можно получить очень дешево меньше чем за пол-дня с помощью ПЦР, либо можно снова использовать гибридизационный метод на чипе. Хотя гаплотип вряд ли поможет с медицинской диагностикой, он позволяет идентифицировать человека, что уже достаточно давно используется в криминалистике, а все продвинутые страны — США, Британия и, в том числе, наша Родина, уже озаботились составлением генетических баз данных для идентификации преступников. Эти базы данных, насколько я понимаю, являются закрытыми и не доступны широкой публике. Следует отметить, что по более полной информации можно восстановить менее полную, то есть по полной геномной последовательности профили STR спокойно насчитываются соответствующими инструментами, аналогичная операция теоретически возможна и для данных по полиморфизму (SNP).

Люк, кто твой отец?

Переходим к самому интересному. Как мы уже говорили, наследование Y-хромосомы идет строго от отца к сыну, а значит, данные по Y-STR (гаплотип) позволяют отследить отцовскую линию наследования. В настоящее время в Сети доступно как минимум 8 генеалогических баз данных, суммарно содержащих сотни тысяч записей, сопоставляющих гаплотип с фамилией человека. Самыми большими базами с открытым доступом и возможностью поиска являются Ysearch ( www.ysearch.org ) и SMGF ( www.smgf.org ). Идея этих баз заключается в поиске своих дальних родственников и копании в собственном генеалогическом дереве — для этого ты делаешь свой гаплотип доступным для поиска в надежде, что дальние родственники когда-нибудь найдутся, плюс сам ищешь похожие (родственные) среди уже имеющихся в базе гаплотипов. Для определения гаплотипа надо послать свой образец ДНК на анализ в одну из этих компаний. Следует отметить, что в основном эти базы охватывают население США и западных стран, поэтому все, что ниже будет говориться об идентификации личности, будет справедливо скорее для Запада. Скажем, в Ysearch нашлось целых 11 человек с фамилией «Ivanov», один из Болгарии, два русских, остальные с «двойным» происхождением Россия-США, либо происхождение не указано. Людей же с фамилией «Johns» (наверно, ближайший английский вариант Иванова) там 30 штук — в 3 раза больше.

Что же можно сделать с этими базами уже сейчас? При невысокой заполненности — сотни тысяч записей, имеющиеся данные уже позволяют определить принадлежность к некоторой семье для миллионов (возможно, десятков миллионов) человек, что уже составляет ощутимый процент для популяции тех же США (население ~300 миллионов). Метод достаточно чувствителен, чтобы вытягивать родственников из семейных линий, разделившихся более 8 поколений назад, а базы непрерывно растут, увеличивая охват. Теперь эре геномной анонимности (например, в случае анонимного донорства спермы) приходит конец. Все чаще в прессе появляются сентиментальные истории наподобие этой. В данном случае, женщина сделала искусственное оплодотворение в медицинском учреждении с использованием спермы анонимного донора и родила замечательную девочку с некоторыми психическими отклонениями. Хотя учреждение подписало обязательство о неразглашении личности донора и строго это соглашение соблюдало, донора от деанонимизации это не спасло. Мамаша прежде всего с использованием генетических баз смогла найти несколько других детей, рожденных от того же анонимного донора — есть даже специальная база, направленная на воссоединение братьев и сестер по отцу-анонимному донору спермы — www.donorsiblingregistry.com. Оказалось, многие из детишек (а их насчиталось аж 13 штук) имеют аутизм и другие отклонения. Нашу героиню это весьма заинтересовало и она подговорила другую женщину, родившую мальчика от того же отца-донора, взять генетический материал сына для анализа через базы данных по Y-STRs. В результате по базам нашлись две семьи очень дальних родственников донора, но с использованием дополнительной информации, которую донор о себе открыл (он разрешил давать женщинам минимум информации о себе — свое образование, профессию матери и что его отец был известным бейсболистом) он был однозначно идентифицирован — пришлось ему принимать гостей и знакомиться с дочкой и ее мамочкой.

Другая история — если вкратце, на смертном одре старик поведал своему сыну, что на самом деле он ему не родной, а приемный. Старик помер, а у сына появилась идея-фикс найти своего настоящего отца. Подробности аналогичны предыдущему случаю — база Y-STRs, зацепка через дальнего родственника, раскрутка с привлечением дополнительной информации о месте проживания и тд, в результате биологический папа был найден, правда оказалось, что он тоже уже скончался. Зато братья по отцу живы и теперь счастливый человек регулярно ездит к ним в гости послушать байки про своего биологического папочку. И таких историй будет все больше и больше по мере заполнения баз.

Использование анонимной генетической информации

Есть и другая сторона этой медали. Как мы уже обсуждали выше, сейчас в Сети в открытом доступе лежат полные генетические последовательности анонимных доноров ДНК, например из проекта «1000 геномов человека». Помимо собственно полного сиквенса геномов, доступен некоторый минимум информации о донорах — возраст, географическое положение и тп. Личности этих людей должны оставаться тайными по этическим причинам — они пожертвовали ДНК во имя науки, чтобы можно было как можно точнее проанализировать генетические различия между людьми, но их ДНК содержит и чувствительную информацию — их предрасположенность к заболеваниям, например. Не хотелось бы, чтобы эту информацию знали страховые компании (в Америке со страховой медициной не забалуешь). Однако, по полной последовательности генома можно спокойно насчитать Y-STRs, а дальше… Ну вы поняли. База, поиск дальних родственников, привлечение дополнительной информации для уточнения — и статья в Science о деанонимизации как минимум 50 человек из 1000. Этические комитеты тяжко вздыхают, ребята из проекта «1000 геномов человека» срочно удаляют из всех записей информацию о возрасте, чтобы сделать точную идентификацию личности невозможной (круг поиска без нее сужен до нескольких (десятков) человек, но точнее уже не получится), а остальные вспоминают историю простой афроамериканки Генриетты Лакс.

Ее история печальна и несколько сюрреалистична. Она умерла от рака шейки матки в возрасте 31 года в 1951 году, прожив ничем не выдающуюся жизнь (пожалуй, самое выдающееся, что она сделала — родила ребенка в 14 лет), однако сегодня каждый молекулярный биолог знает по крайней мере две первые буквы ее имени и фамилии — HeLa. Это название самой известной раковой клеточной линии, используемой сегодня для экспериментов в большинстве лабораторий, работающих в области исследований рака и не только. Смысл в том, что когда врач брал на анализ клетки раковой опухоли Генриетты Лакс, он заметил, что они быстро делились и их было относительно легко культивировать. Многие раковые клеточные линии нестабильны, эта же линия оказалась весьма устойчивой, за что ее и полюбили. Сама Генриетта умерла больше 60 лет назад, а вот рак, убивший ее, жив до сих пор в сотнях лабораторий. Так как раковые клетки — это собственные клетки человека, в которых сломался контроль клеточных делений, то можно сказать, что и сама Генриетта в каком-то смысле жива до сих пор в виде своего рака. Теперь она бессмертна, живет в лабораториях и плодится и размножается в питательной среде… Рассказ, достойный Стивена Кинга. Разумеется, когда технологии секвенирования были выведены на современный уровень, была определена и полная геномная последовательность раковой линии HeLa и, конечно же, выложена в открытый доступ. Европейская Лаборатория Молекулярной Биологии (EMBL, Германия), выполнявшая проект, заявила, что публикация полной геномной последовательности линии HeLa не раскрывает никакой информации о самой Генриетте Лакс и ее родственниках и потомках, однако мы с вами знаем, что все маркеры предрасположенности к заболеваниям в полном сиквенсе — как на ладони, а американские страховщики уже выглядывают из-за плеча. После многочисленных наездов EMBL признало, что публикация геномной последовательности нарушает приватность родственников Генриетты и убрало ее из свободного доступа.

Finita la commedia

Подытожим. В Сети появились базы данных для поиска дальних родственников и игр в генеалогию по генетической информации (увы, чтобы полноценно воспользоваться поиском, придется посылать им образец своей генетической информации на анализ — обычно это соскоб со внутренней стороны щеки, откуда они потом выделят ДНК). Эти базы можно эффективно использовать не только для поиска своих потерявшихся четвероюродных братьев и сестер, но и для точной идентификации донора спермы в случае искусственного оплодотворения (анонимный донор, забудь про анонимность) или биологических родителей в случае усыновления/удочерения. Сейчас базы содержат сотни тысяч записей, что позволят вытягивать через дальнее родство, возможно, десятки миллионов людей (при наличии дополнительной информации для точной идентификации). Эта цифра будет только расти с увеличением количества записей в базах. Так же ставится вопрос о деанонимизации через анонимную генетическую информацию, использующуюся в биологических и медицинских исследованиях. Так что, если Вы неосторожно оставили кому-то свою генетическую информацию в виде ребенка — к Вам могут прийти и сказать: «Здравствуй, папа!», а если Вы поучаствовали в анонимных медицинских генетических исследованиях — не удивляйтесь, если страховщики через некоторое время станут ломить бешеные деньги за Вашу медицинскую страховку, так как у Вас есть маркер предрасположенности к раку кожи или чему-то подобному.

На сей оптимистичной ноте разрешите откланяться — будьте здоровы, не болейте и осторожней относитесь к своей генетической информации.

Автор: OlegKovalevskiy

Источник


* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js