На какие вопросы можно ответить, проанализировав 1 500 000 уникальных историй болезней?

в 9:47, , рубрики: алгоритмы поиска, алгоритмы сортировки, аутизм, биоинформатика, будущее здесь, Поисковые машины и технологии, метки: , , ,

Существует ли связь между астмой и шизофренией?
Диабет и биполярное расстройство личности — могут ли они иметь что-то общее?
Сможет ли выявить столь нетривиальные связи анализ базы данных по 1500000 пациентов США?
На какие вопросы можно ответить, проанализировав 1 500 000 уникальных историй болезней?
предупреждение: под катом очень много текста

Статья написана по материалам доклада «Аутизм и меделевские заболевания» Ржецкого Андрея Юрьевича на Первой международной конференции «Аутизм. Вызовы и решения». Дальше о нем и о анализе данных

Андрей Юрьевич Ржецкий

image
Андрей Ржецкий — профессор медицины и генетики человека в Институте геномики и системной биологии Университета Чикаго. Он также является директором КОНТЕ Центра геномной биоинформатики в области нейропсихиатрических заболеваний. А. Ржецкий закончил Новосибирский государственный университет, защитил кандидатскую диссертацию в Институте цитологии и генетики в Новосибирске. В 1991 году в качестве постдока уехал в США.
Научные интересы:
1) биоинформатика и филогенетика в применении к анализу генов, белков, молекулярных метаболических путей;
2) применение статистики к анализу последовательностей и анализ молекулярных сетей;
3) разработка алгоритмов и программ для анализа и сравнения метаболических путей и последовательностей, филогенетической реконструкции.
Как математик и биолог-теоретик, Андрей Ржецкий является ведущим экспертом в области разработки новых биоинформационных подходов к анализу биологических комплексов и болезней. Ученый является пионером в разработке стратегий биоинформационного картирования заболеваний посредством комплексного анализа генетических данных.
Андрей Юрьевич настолько известен в США, что в гугле есть даже несколько подсказок поиска с его фамилией:
На какие вопросы можно ответить, проанализировав 1 500 000 уникальных историй болезней?

Аутизм

Аутизм представляет собой нарушение развития нервной системы, которое выражается затруднениями социального взаимодействия и общения, а также ограниченным и повторяющимся поведением. В согласии с критериями диагностики, симптомы аутизма должны быть очевидны у детей уже до трех лет. Аутизм влияет на процесс обработки информации в мозге, изменяя порядок организации и подключения синапсов нервных клеток. Как это происходит пока не совсем понятно.
Примерный перевод из анго-Вики

Менделевские заболевания

Менделевские заболевания, признаки (Mendels diseases, traits): заболевания или признаки, являющиеся результатом экспрессии единичного гена, который оказывает большое влияние на фенотип. Наследуются согласно законам Менделя. Примеры менделевских болезней: муковисцидоз, болезнь серповидных эритроцитов, болезнь Хантингтона (Гентингтона) и гемофилия
из просторов интернета

Abstract

В биологии накопились огромные данные, которые можно обработать только с помощью компьютера. Группа Андрея Ржецкого взялась обработать данные о психоневрологических расстройствах. При этом они обрабатывают не отдельный массив данных, будь то генетические причины, факторы окружающей среды или клинические результаты, а все данные вместе, и это дает более полную картину причин возникновения расстройств.
В 2004 году группа А. Ржецкого получила грант от организации Autism Speaks на двусторонний анализ аутизма (как биологического процесса и как нарушения развития), используя богатую информацию, накопленную в нескольких связанных между собой областях. Группа собирала информацию о молекулярных взаимодействиях в человеческих нейронах и с помощью своей уникальной программы (система GeneWays) рассмотрела широкий спектр нарушений, с которыми аутизм показывает неслучайные ассоциации (неврологические, аутоиммунные, метаболические и многие другие группы расстройств, которые имеют сильный наследственный компонент).
В 2007 году группа уже проанализировала 1,5 миллиона историй болезней. Суть работы заключается в исследовании области пересечения на уровне определенных генов различных заболеваний. Исследователи пришли к выводу, что определенные группы генов могут предрасполагать человека к нескольким заболеваниям, в то время как другие могут предрасполагать человека лишь к одной болезни, защищая против другой. Одна и та же мутация в гене может как коррелировать с другим заболеванием, так и защищать от него, делая невозможным сочетание двух разных болезней. В моделях по оценке данных из области аутизма выявилась возможность предрасположенности так же и к биполярному расстройству. При этом общая группа генов обнаружилась и при сравнении мигрени с аутизмом, а также связь инфекций со многими психоневрологическими расстройствами, в том числе, и с аутизмом. Группа А. Ржецкого впервые измерила эти корреляции.

На графике (ниже) показана корреляция некоторых часто встречающихся заболеваний. Красные линии — положительная корреляция, синие — отрицательная. Толщина линии — величина корреляции. Размер окружности соответствует выборке пациентов (от 20 до 136 тыс).

Аутизм и меделевские заболевания

Свою презентацию доктор Ржецкий открыл слайдом с хорошо знакомым кадром из российского фильма о Шерлоке Холмсе. И это не случайно: именно феномен Холмса, преуспевшего в сыскном деле благодаря вниманию к деталям, незначительным для большинства обычных наблюдателей, вдохновляет Ржецкого, так же уверенного в том, что именно мелочи могут определять многие биологические загадки и помогать подбирать к ним ключи.
Он употребляет такую метафору: болезнь — преступление, данные — улики.
Цель исследований: построение модели дающей результат (нахождение «преступника» — причину болезни)

Есть два символических образа: Еж и Лис. Лис знает много небольших уловок, Еж лишь один надежный трюк.
В книге “Сигнал и шум” (Мед Сильвер) — анализирует массу научных предсказаний. И если посмотреть какие предсказания работают, какие проваливаются, то “Лисы” предсказывают лучше чем “Ежи”.

Проблематика работы со статистическими данными в том, что есть два подхода, сравнимых с религиозными.
Байесовский подход позволяет объяснить насколько сильно мы можем верить результатам и дать предположения в количественном выражении.
Проблема построения достоверной модели, в том, что надо сложить данные фенотип+геном+среда, чтоб получить модель с полезными предсказаниями. Например, такую, которая сможет анализировать предрасположенность к определённой болезни у рёбенка.

Итак, мы решили проанализировать множество заболеваний. Почему? Потому что классификация болезней во многом искуственна.Собственно, аутизм, наверняка представляет “контейнер с заболеваниями” — с разными причинами, генетикой.

Маленькое отступление: Черчиль, Мартин Лютер-Кинг, гернерал Шерман, Рузвельт, Кенеди, Ганди
что у них общего (кроме того, что они известны и мертвы)?

ответ тут

Общее то, что у них было биполярно-депресивныное расстройство личности (маниакально-депрессивный психоз). Про свое состояние аппатии Черчиль говорил как про “черную собаку депресси”.
Аффективные расстройства присущи многим успешным политикам.

Каков фенотип аутиста: интересно, что еще Аспергер формулировал у выделеной им группы “неспособность формировать социальные навыки”, “поглощение мелкими деталями, кроме того обращал внимание на “неловкие движения”. Детей-аутистов он называл “маленькими професорами” — все это мы выделяем как критерии аутизма до сих пор.
Чуть-чуть аутизма просто необходимо для успеха в науке. Мы не знаем точно, у каких ученых в прошлом был аутизм (подозревают у Ньютона и Теслы), зато у многих ученых была шизофрения и биполярное растройство личности.

В книге “Невидимая чума” утверждается что за 260 лет частота заболеваний неврологичискими и психическими заболеваниями возрастала (Обработано множество прямых и косвенных данных).
Вопрос о том, видим ли мы увеличение случаев аутизма очень острый: одни считают. что увеличение есть, другие — что нет.
Центр заболеваний США дает такую статистику по аутизму: 1:80 — мальчики, 1:240 — девочки.
Корейское исследование: была попытка произвести фенотипирование всей популяции. “Прочесали” почти всех детей в Южной Коре и обнаружили, что случаев аутизма намного больше и частота заболеваний возрастает. По их данным аутизм у 4% мальчиков и у 1,5% девочек.

Почему когда мы говорим о статистике и анализе могут существовать столь разные точки зрения?
Причины:

  1. меняются диагностические критерии;
  2. существуют экономические основания: например, могут получать диагноз из-за материальной заинтересованости;
  3. врачи по разному могут ставить диагноз.

Тем не менее, по мнению Ржецкого Андрея, такие заболевания, как аутизм, все же увеливаются в частоте.

Что же надо, чтобы построить правдоподобную модель аутизма? Мы моделровали среду и геном как случайные переменные. Например инфекция есть-нет — случайная переменная, и изменения в геноме — тоже случайная генетическая переменная. Берем Р1 и Р2 как два фенотипа (например, аутизм и диабет или аутизм и шизофрения) и у них обязательно будет “факторы общего”. И мы можем построить множество моделей, где Р1 пересекает/не пресекает Р2 в факторах среды, или в геноме или в фенотипе.
Проблема, что все существующие модели зависимостей генотип-фенотип сейчас очень просты, и не подходят для описания таких сложных заболеваний как аутизм. А моделей, которые бы включали еще и среду вообще практически нет.

Кроме того, что мы не знаем КАК моделировать, мы не знаем ЧТО должно входить в модель:
Дональд Рамсфелд (секретарь обороны США) говорил: «Есть то, о чём мы знаем, что мы это знаем. Есть то, о чём знаем, что мы это не знаем. Но есть также и то, про что мы не знаем, что мы этого не знаем».
Мы тоже выделяем три типа факторов: “Извесные извесные” — это хорошо изученые и всегда учитываемые факторы, “известные неизвестные” — недостаточно изученые факторы, но они попадают под подозрение, как могущие влиять на результат и “Неизвестные неизвестные” — факторы, влиющие на процесс, который мы изучаем, но, о которых мы не знаем и даже не подозреваем о них и о их существовании.

Пример связи генотип-фенотип-серда:

Генотип: рецессивная мутация в X-хромосоме
Фенотип: дефицит белка фактора свёртывания крови VIII (Гемофилия А)
Среда: для лечения берется кровь сотен тысяч людей.
Результат: Более 80 % гемофиликов в США болеют СПИДом и гепатитом. (т.к. когда-то доноров не проверяли на эти болезни)

Когда факторы среды очевидны:

Ожирение в США: слишком быстро растет число людей с излишним весом, чтоб обяснить это фактором генома, потому что рост произошел за одно-два поколения:
image

Как влияет среда на аутизм? Пока недостаточно данных.
Для того чтоб добавлять в модель “известные неизвестные” интервьюировали много родителей.
Это не причины аутизма, это факторы, которые нужно учесть. Например: мама жила на краю кукурузного поля, поле обрабатывали пестицидами и это могло повлиять. Или еще один фактор: инфекционное заболевание, высокая темпереатура и затем регрессия (потеря ребенком речи, координации движений). Все факторы необходимо учитывать при моделировании, нельзя от них отмахиваться.
Вакцинация — поле боя в вопросе вызывает аутизм или нет. Тестировали гипотезу что только вакцинация вызывает аутизм. Эта гипотеза была отвергнута (хотя к тому исследованию возникает много вопрососов). Но не иследованым остается сложение факторов: геном+вакциция, и такая теория может быть справедлива.
Совместно с Джеймсом Евансом (James A. Evans) исследовали факторы, которые должны быть включены в генетическую модель аутизма. Опросили целый ряд учёных, занимающихся проблемами аутизма. Ожидали найти много позиций согласия и островки разногласий, но нашли океан разногласий с небольшими островками единства.
Поэтому в модель включили максимум возможных факторов.

Как собственно выполняется генетическое исследование?
Задача проста когда надо сравнить одну хромосому — тогда легко найти совпадающий искаженный участок, который и приводит к заболеванию. Но когда таких участков не один, когда хромосом несколько, то задача значительно усложняется. У человека около 20000 генов. Если просто искать изменения связаные с аутизмом для любой комбинации генов, то число возможных комбинаций
для 2х генов — 10^8
для 3х генов — 10^12
для 10 генов — 10^37 — т.е. не хватит населения земного шара, чтоб набрать данные для анализа.
Как видим, то, что работало для одного гена не работает для многих.

Выход в том, чтоб составить карту функциональных отношений генов и белков. Откуда взять такую карту? Лаборатория Андрея Юрьевича проанализировала десятки тысяч статей в научных журналах, чтоб определить эти связи.

Вот какая получилось карта связей

К счастью, гены, которые мы ищем должны располагатся близко в функциональном пространстве – это хорошо проанализированная, достоверная закономерность. Итак, мы перебираем не все варианты подряд, а лишь те, где найбольшая корелляция между геномом и фенотипом.
Почему для анализа взяты менделевские заболевания? Они хорошо изучены, и известно, что за них отвечает определенные места в геноме.

Цветовое кодирование менделевских заболеваний в дальнейших визуализациях

На какие вопросы можно ответить, проанализировав 1 500 000 уникальных историй болезней?

Когда мы провели анализ для нескольких заболеваний, оказалось, что одни и те же области молекулярной сети перекрываются несколькими заболеваниями.

Пример скрытой связи:

image image

Джоди Фостер и Рональд Рейган — что между ними общего?
Дон Хинкли пытясь впечатлить Джоди Фостер покушался на Рональда Рейгана

Фенотипы можно сравнить с известными личностями, генотип – скрытые связи между ними. Если мы наблюдаем последовательность фенотипов: можно ли делать заключения о генетике? Да, для условий моделирования это можно делать.

Данные:

1500000 уникальных карточек пациентов, в закодированых по МКБ-9 заболеваниях за всю жизнь пациента. Так как эти данные используятся для определения размера компенсации по страховке в США, то они несовершенны. Но, учитывая их огромный объем было бы преступно не проанализировать их.
Используюя модель порога для описания того генетические заболевания превращаются в фенотип, можно оценить генетические связи с сложными фенотипами заболеваний (как аутизм). Красные ребра — самые сильные связи. Предсказание: аутизм имеет общую генетику с массой неродственных заболеваний. В результате анализа: очевидна значимая связь аутизма с инфекционными заболеваниями и с многими заболеваниями нервной системы.

Корелляция менделевских заболеваний с аутизмом, биполярным расстройством и шизофренией

На какие вопросы можно ответить, проанализировав 1 500 000 уникальных историй болезней?

И, наконец, на графике ниже показана корреляция некоторых часто встречающихся заболеваний по базе данных их 1500000 пациентов. Красные линии — положительная корреляция, синие — отрицательная. Толщина линии — величина корреляции. Размер окружности соответствует выборке пациентов (от 20 до 136 тыс).
На какие вопросы можно ответить, проанализировав 1 500 000 уникальных историй болезней?

Во время лекции профессор показал таблицу корреляции сложных заболеваний и менделевских заболеваний из неопубликованной работы, где анализировалось уже 10 000 000 (да, да 10 миллионов) уникальных карточек заболеваний:

Выводы

Доказано перекрытие участков генома для разных заболеваний
Каждое сложное заболевание имеет генетически связанный набор менделевских заболеваний.
Анализируя данные, обединяя их мы приближаемся к построению модели проявления аутизма.
Надеюсь, что вы не все уснули :)

ВНИМАНИЕ

Если у вас есть интересные наработки в области поиска связей, вы занимаетесь сопоставлением массивов данных, если вы занимаетесь генетическими исследованиями, то лаборатория Ржецкого Андрея Юрьевича заинтересована в широком и взаимополезном сотрудничестве.
Свяжитесь с ними! (ссылки внизу топика)

Благодарности:
Благодарю компанию «ИТек», в которой работаю, моих руководителей Балицкого Юрия и Калашникова Романа за предоставленый «отгул» на три рабочих дня в горячий сезон для нашего сервиса техподдержки.
Профессиональное сообщество практик «Превентивная медицина» спасибо за первую международную конференцию по аутизму, в рамках которой мы могли услышать замечательный доклад Ржецкого А.Ю.
Выражаю искреннюю и огромную благодарность фонду «Дитина з майбутнiм» и лично Инне Сергиенко и Ларисе Рыбченко за то, что они оплатили проезд в Москву и за командировочные, а также главе БФ Ассоциация родителей детей с аутизмом — Евгение Паничевской. Спасибо за оказанное доверие и возможность преставлять всех вас на 1й Московской международной конференции «Аутизм: вызовы и решения».
Выражаю благодарность директору Фонд «Выход» Евгении Мишиной, оказавшей неоценимую материальную и моральную помощь в г. Москва, и вам, мои замечательные Светлана Моисеева и Аля Янушевич, благодаря которым я не остался ночевать на вокзале. Ну и конечно всем кто это организовал и волонтерил: Екатерине Мень, Яне Золотовицкой из Центра проблем аутизма и всем-всем-всем остальным.

Избранные публикации А. Ржецкого:

  • Iossifov I, Zheng T, Baron M, Gilliam TC, Rzhetsky A. (2008) Genetic-linkage mapping of complex hereditary disorders to a whole-genome molecular-interaction network. Genome Res. June 3.
  • Feldman I, Rzhetsky A, Vitkup D. (2008) Network properties of genes harboring inherited disease mutations. Proc Natl Acad Sci U S A. 105, 4323-4328.
  • Rodriguez-Esteban R,Rzhetsky A. (2008) Six senses in the literature. The bleak sensory landscape of biomedical texts. EMBO Rep. 9, 212-215.
  • Yao L &Rzhetsky A.(2008) Quantitative systems-level determinants of human genes targeted by successful drugs. Genome Res. 18:206-213.
  • Rzhetsky, A., Wajngurt, D., Park, N. & Zheng, T. (2007) Probing genetic overlap among complex human phenotypes. Proc. Natl. Acad. Sci. U S A. 104, 11694-11699.
  • Cokol, M., Rodriguez-Esteban, R. & Rzhetsky, A. (2007) A recipe for high impact. Genome Biol, 8, 406.
  • Cokol, M., Iossifov, I., Rodriguez-Esteban, R. & Rzhetsky, A. (2007) How many scientific papers should be retracted? EMBO Rep, 8. 422-423.

Ссылки:

Одна из книг написанных Ржецким А.Ю. в соавторстве с Жарких А.А. во времена СССР: «Новый подход к реконструкции филогений на основе анализа многих семейств генов»: books.google.com.ua/books/about/%D0%9D%D0%BE%D0%B2%D1%8B%D0%B9_%D0%BF%D0%BE%D0%B4%D1%85%D0%BE%D0%B4_%D0%BA_%D1%80%D0%B5%D0%BA%D0%BE%D0%BD%D1%81.html?id=RTPGHAAACAAJ&redir_esc=y
Сайт Андрея Юрьевича: www.ci.uchicago.edu/research/rzhetsky/
Андрей Ржецкий в каталоге «Биомедексперстс» www.biomedexperts.com/Profile.bme/1652205/Andrey_Rzhetsky
Статьи по результатам исследований:
Network properties of genes harboring inherited disease mutations www.pnas.org/content/105/11/4323.full
Probing genetic overlap among complex human phenotypes www.pnas.org/content/104/28/11694.full

Бонус для дочитатавших до конца

Аудиозапись доклада, сделана для личного использования (местами – провалы в звучании) на дропбоксе

Автор: AlexPancho

Источник

Поделиться