Геномы секвенированных организмов — ошибки в базах

в 23:14, , рубрики: Алгоритмы, биоинформатика, геномы, поисковые системы, секвенирование, метки: , ,

Наиболее известная база, содержащая геномы секвенированных организмов — NCBI, содержит большое количество систематических ошибок. Из-за этого практически невозможно использование этих данных, и тем более невозможно изучение механизма мутаций (а, следовательно, и эволюции), так как в таком случае исследуются человеческие ошибки при секвенировании, а не природные мутации. Поэтому прежде чем использовать эти данные необходимо уточнение этой базы.

И это трудоемкая задача, её невозможно решить для отдельного нужного организма. Поэтому хотелось бы найти тех, кто хотел бы создать свой русскоязычный источник аналогичный NCBI, но с уточненной информацией.

В статье показывается на сколько массовы ошибки геномов, находящихся в NCBI и рассказывается как самому в этом убедится, и некоторые способы исправления.

Где располагаются геномы

Вот тут на ftp расположены все секвенированные геномы. А тут геномы бактерий — с них и стоит начать.

Нам нужен файл all.fna.tar.gz — он содержит геномы порядка 2000 бактерий. Что такое геном? Это цепочка ДНК — букв A, T, C, G. Скачиваем, распаковываем — получаем кучу директорий с названиями видов на латинском. Внутри как правило несколько файлов NC_###### — в каждом файле отдельный т.н. локус — нить ДНК (хромосома или плазмида).

Для простоты мы займемся РНК, так как с белками немного посложнее для обработки. Для этого нам нужны еще два файла:
1. all.rnt.tar.gz — содержит список и расположение (начало, конец, направление) всех РНК в определенном локусе
2. all.frn.tar.gz — содержит список собственно вырезанных кусков РНК из ДНК (не удивляйтесь хоть это и РНК — замен T на U здесь не будет — т.к. это именно код ДНК, по которому будет создано РНК)

Как выполнить предобработку

Для обработки данные файлы не очень удобны. Файлы .fna содержат в первой строке комментарий, а далее код ДНК в каждой строке по 70 символов, потом перенос строки. Естественно для поиска это не куда не годится, и нужен это склеить в одну строку без переносов, и исключить комментарий. Обработанному таким образом файлу дадим расширение .fna.txt

Кроме того, есть еще один нюанс: с ДНК может осуществляться транскрипция РНК как справа налево, так и наоборот, а так как ДНК — это у нас двойная спираль, то справа налево означает транскрипцию с одной нити ДНК, а слева направо с другой комплементарной ей.

Это означает, что чтобы найти к примеру РНК для которой указано отрицательное направление в файле all.rnt.tar.gz — нам нужно искать не в полученном файле .fna.txt — так мы ничего не найдем. Нужно создать обратный файл (дадим ему расширение .fna_.txt). Суть там такая берем файл .fna.txt — читаем побуквенно с конца и делаем комплементарные замены:

T=A; G=C; A=T; C=G; M=K; R=Y; W=W; S=S; Y=R; K=M; V=B; H=D; D=H; B=V

Первых 4 понятны и известны. Остальные достаточно неожиданны :), правда они встречаются редко, но встречаются. Суть в них такая если при секвенировании невозможно отличить G от A ставится R и т.п.

Находим ошибки или кросс-анализ

Этому процессу я дал название кросс-анализ. Суть такая из интересующего файла .frn берем код одной РНК. И ищем совпадение по всему множеству файлов .fna.txt и .fna_.txt.

Как вы думаете сколько вы получите совпадений? Достаточно. Причем может оказаться, что в файле .rnt может не оказаться соответствующей записи. А наиболее часто окажется, что начало и конец в файле будет не таким, а сдвинутым на 1 или 3 позиции. Может даже быть другое направление. Встречался я и с ошибками более существенными когда указано, что это Ile РНК, а на самом деле это Met РНК.

По числу этих ошибок практически порядка 50%. Как можно работать с такими ошибочными данными я не знаю. Почему люди из NCBI не проводят такой простой кросс-анализ — тоже не знаю.

Но прикиньте сколько ошибочных выводов потом делают биологи доверившись этим данным?

Автор: tac


* - обязательные к заполнению поля