- PVSM.RU - https://www.pvsm.ru -

Браузеры генома

Не последнюю роль в биоинформатике занимает визуализация. Учёные в этой области работают с огромными объёмами информации, которую хорошо бы как-то охватить взглядом и представить в голове. Ярким примером средства визуализации являются браузеры геномов (genome browser), о которых я и хочу рассказать.
Браузеры генома [1]

Как многие помнят из школьного курса биологии, геном состоит из набора хромосом, а хромосома — это две цепочки, свёрнутые в спираль. Каждая из цепочек содержит последовательность нуклеотидов с четырьмя типами азотистых оснований — аденин (A), гуанин (G), цитозин (C) и тимин (T). По одной цепочке легко определить вторую, если помнить, что аденин соединяется в пару с тимином (Антошка-Тимошка), а гуанин с цитозином (гусь-цыплёнок). Некоторые участки ДНК называются генами, с них считывается РНК, по которой потом кодируются белки. Белки состоят из аминокислот 20 видов [2] (плюс пара экзотических), каждая из которых кодируется по трём нуклеотидам.

Браузер генома — это такая одномерная карта, которая отображает какую-нибудь нуклеотидную последовательность (скажем, хромосому или отдельный ген) с сопутствующей информацией. Информация обычно структурируется в блоки, называемые треками (tracks). К примеру, может быть трек с генами или с отдельными нуклеотидами. Отдельные сущности на треках часто называют фичами (features).

Бывают браузеры геномов, заточенные под маленькие бактериальные геномы, но универсальному браузеру необходимо показывать и длинные хромосомы позвоночных целиком, и отдельные нуклеотиды. Самая длинная хромосома человека (первая [3]) содержит около 250 миллионов пар оснований, то есть масштаб должен меняться примерно в миллион раз. Конечно, в разном масштабе информация отображается по-разному. Например, на картинке выше есть трек с генами UCSC Genes, куда попал ген SOD1 целиком и фрагменты соседних генов. В таком масштабе отображается экзон-интронная структура гена. Экзоны [4] (те части, которые останутся в РНК после сплайсинга [5] и в перспективе закодируют белок) обозначены закрашенными прямоугольниками, а интроны [6] (промежутки между экзонами) — стрелочками, которые показывают направление считывания гена (в данном случае ген SOD1 расположен на прямой нити ДНК, а BC041449 — на обратной). А вот как кусок гена SOD1 выглядит при увеличении:
Браузеры генома
Здесь масштаб позволяет вывести аминокислотную последовательность тех фрагментов гена, которые потом закодируют белок. Каждой аминокислоте соответствует определённая буква латинского алфавита.

Что ещё можно увидеть на браузере генома? В самом детальном масштабе можно увидеть отдельные нуклеотиды, как на прямой, так и на обратной спирали ДНК:
Браузеры генома [7]
Каждому нуклеотиду соответствует стандартный цвет, поэтому можно весело раскрашивать, даже если сами буквы уже не влезают:
Браузеры генома

Если ещё немного откатиться, то о нуклеотидном составе можно судить по специальному треку GC content:
Браузеры генома
Здесь красный цвет означает, что нуклеотидов G и C в данном месте меньше 50%, а синий цвет — больше. Можно подумать, что A, C, G, T — это просто четыре равноправные состояния двухбитовой ячейки, кодирующей генетическую информацию, и доля G и C ни о чём интересном не говорит. Однако пары оснований G-C образуют три водородные связи, а A-T только две. То есть G-C крепче, их труднее разорвать и обогащённость G-C или A-T связями влияет на химические процессы в данном регионе ДНК.

Что ещё интересного можно посмотреть? Обычно имеются треки с геномными вариациями, которые, например, отличают различных людей друг от друга. Часто вариации выражаются в виде точечных мутаций, однонуклеотидных замен (Single-nucleotide polymorphism, SNP [8]). Многие из этих мутаций найдены при сравнении результатов секвенирования геномов разных людей и помещены в специальные базы данных (например, dbSNP):
Браузеры генома
На приведённом фрагменте не так уж и мало SNP (19 на 356 нуклеотидов — больше 5%). Впрочем, многие из них синонимичны. Так как из 43=64 вариантов трёх нуклеотидов кодируется 20 вариантов белков, некоторые замены не влияют на результирующий белок. Часть замен попадает в некодирующие регионы (например, в интроны), поэтому могут тоже не влиять на результат (но могут и влиять).

Ещё одна интересная штука — это сравнение человеческого генома с геномами других видов. Для этого нетривиальными алгоритмами делают множественное выравнивание геномов и тоже его показывают. На самой верхней картинке поста показано схематично выравнивание человека с макакой-резусом [9], мышью, собакой, слоном, опоссумом, курицей, лягушкой (Xenopus tropicalis) и рыбкой данио-рерио [10] (zebrafish). Тёмным показаны совпадающие фрагменты. Заметьте, что самые тёмные участки приходятся на кодирующие области генов. На той же картинке есть график консервативности участков среди млекопитающих (Mammal cons), который тоже коррелирует. А вот множественное выравнивание в увеличенном виде:
Браузеры генома
Минус означает, что нуклеотид есть у человека, но отсутствует у другого вида. Оранжевая вертикальная черта (например, в строчке с собакой между двумя тиминами) — наоборот. Сверху указано количество пропавших нуклеотидов (сами они не приведены). Кодирующий регион приведён в аминокислотном виде, поэтому синонимичных замен не видно. Курица и рыбка, видимо, вообще не имеют похожего региона. Можно убедиться, насколько макака похожа на человека.

На самом дальнем масштабе становится виден кариотип [11] хромосомы:
Браузеры генома
По кариотипу можно сориентироваться, если помнить, например, в какой полосе находится ваш любимый ген, который вы изучаете. Перекрещивание посередине — это центромера [12].

Бывает и множество других предопределённых треков. Некоторые браузеры позволяют подгружать треки с веб по специальному DAS-протоколу [13]. Ну и, конечно, геном-браузеры позволяют учёным добавлять свои (для этого есть специальные форматы файлов). Пользовательские треки могут, скажем, показывать области связывания ДНК с конкретным белком (например, с фактором транскрипции [14]), как предсказанные, так и полученные в эксперименте (к примеру, ChIP-Seq [15]). Если вы, к примеру, секвенировали собственный геном, можно загрузить результат и сравнить с референсным и с известными SNP.

Браузеров генома великое множество. Только в Википедии перечислено [16] штук тридцать, а это точно не все. Многие из них специализированы: заточены под определённый организм или определённый тип данных. Из популярных десктопных браузеров можно отметить Integrated Genome Browser [17] и Integrative Genomic Viewer [18] (как видите, с названиями не заморачивались). И тот и другой — Java-приложения, имеется Java Web Start.
Браузеры генома [19]

Конечно, часто удобнее пользоваться браузером генома на веб. Большинство картинок выше сделаны в UCSC Genome Browser [20] и Ensembl Genome Browser [21]. Оба этих браузера генерируют картинки на сервере. Есть и более современные в техническом плане решения. AnnoJ [22], например, рендерит картинки на клиенте в canvas, получая от сервера данные в JSON (демонстрация для любимой травки биологов — арабидопсиса). Есть ещё JBrowse [23]. В своём роде он уникален, так как не содержит серверного кода. Данные о треках и последовательностях заранее подготавливаются на сервере в виде статических файлов, которые браузер подгружает по AJAX. Пользовательские файлы обрабатываются через File API [24].

Идеального браузера геномов не существует. На мой взгляд, основная проблема — это скорость работы. Особенно это заметно на веб, хотя и в десктопных бывают задержки. Некоторые треки при определённых масштабах либо генерируются очень медленно, либо вообще отключаются. Для визуализации приходится перемалывать много информации, которая, возможно, не всегда представлена в оптимальном виде. Поэтому если у кого-то найдётся желание этим заняться, есть все шансы побороть конкурентов.

Автор: lany

Источник [25]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/bioinformatika/27870

Ссылки в тексте:

[1] Image: http://genome.ucsc.edu/cgi-bin/hgTracks?hgHubConnect.destUrl=..%2Fcgi-bin%2FhgTracks&clade=mammal&org=Human&db=hg19&position=chr21%3A33%2C031%2C597-33%2C041%2C570&hgt.positionInput=enter+position%2C+gene+symbol+or+search+terms&hgt.suggestTrack=knownGene&Submit=submit&hgsid=327287135&pix=1884

[2] аминокислот 20 видов: http://ru.wikipedia.org/wiki/%D0%90%D0%BC%D0%B8%D0%BD%D0%BE%D0%BA%D0%B8%D1%81%D0%BB%D0%BE%D1%82%D1%8B#.D0.9F.D1.80.D0.BE.D1.82.D0.B5.D0.B8.D0.BD.D0.BE.D0.B3.D0.B5.D0.BD.D0.BD.D1.8B.D0.B5_.D0.B0.D0.BC.D0.B8.D0.BD.D0.BE.D0.BA.D0.B8.D1.81.D0.BB.D0.BE.D1.82.D1.8B

[3] первая: http://ru.wikipedia.org/wiki/1-%D1%8F_%D1%85%D1%80%D0%BE%D0%BC%D0%BE%D1%81%D0%BE%D0%BC%D0%B0_%D1%87%D0%B5%D0%BB%D0%BE%D0%B2%D0%B5%D0%BA%D0%B0

[4] Экзоны: http://ru.wikipedia.org/wiki/%D0%AD%D0%BA%D0%B7%D0%BE%D0%BD

[5] сплайсинга: http://ru.wikipedia.org/wiki/%D0%A1%D0%BF%D0%BB%D0%B0%D0%B9%D1%81%D0%B8%D0%BD%D0%B3

[6] интроны: http://ru.wikipedia.org/wiki/%D0%98%D0%BD%D1%82%D1%80%D0%BE%D0%BD

[7] Image: http://www.ensembl.org/Homo_sapiens/Location/View?r=6:134489603-134489662

[8] Single-nucleotide polymorphism, SNP: http://ru.wikipedia.org/wiki/%D0%9E%D0%B4%D0%BD%D0%BE%D0%BD%D1%83%D0%BA%D0%BB%D0%B5%D0%BE%D1%82%D0%B8%D0%B4%D0%BD%D1%8B%D0%B9_%D0%BF%D0%BE%D0%BB%D0%B8%D0%BC%D0%BE%D1%80%D1%84%D0%B8%D0%B7%D0%BC

[9] макакой-резусом: http://ru.wikipedia.org/wiki/%D0%9C%D0%B0%D0%BA%D0%B0%D0%BA%D0%B0-%D1%80%D0%B5%D0%B7%D1%83%D1%81

[10] данио-рерио: http://ru.wikipedia.org/wiki/%D0%94%D0%B0%D0%BD%D0%B8%D0%BE-%D1%80%D0%B5%D1%80%D0%B8%D0%BE

[11] кариотип: http://ru.wikipedia.org/wiki/%D0%9A%D0%B0%D1%80%D0%B8%D0%BE%D1%82%D0%B8%D0%BF

[12] центромера: http://ru.wikipedia.org/wiki/%D0%A6%D0%B5%D0%BD%D1%82%D1%80%D0%BE%D0%BC%D0%B5%D1%80%D0%B0

[13] DAS-протоколу: http://en.wikipedia.org/wiki/Distributed_Annotation_System

[14] фактором транскрипции: http://ru.wikipedia.org/wiki/%D0%A4%D0%B0%D0%BA%D1%82%D0%BE%D1%80%D1%8B_%D1%82%D1%80%D0%B0%D0%BD%D1%81%D0%BA%D1%80%D0%B8%D0%BF%D1%86%D0%B8%D0%B8

[15] ChIP-Seq: http://en.wikipedia.org/wiki/ChIP-sequencing

[16] перечислено: http://en.wikipedia.org/wiki/Genome_browser

[17] Integrated Genome Browser: http://bioviz.org/igb/

[18] Integrative Genomic Viewer: http://www.broadinstitute.org/igv/

[19] Image: http://habrastorage.org/storage2/31c/cf9/c60/31ccf9c60db504d3277971846c4b0336.png

[20] UCSC Genome Browser: http://genome.ucsc.edu/cgi-bin/hgTracks

[21] Ensembl Genome Browser: http://www.ensembl.org/Homo_sapiens/Location/Genome

[22] AnnoJ: http://neomorph.salk.edu/epigenome/epigenome.html

[23] JBrowse: http://jbrowse.org/demos/

[24] File API: http://www.w3.org/TR/FileAPI/

[25] Источник: http://habrahabr.ru/post/170429/