ДНК, новые технологии и геном человека: Биоинформатика в Университете ИТМО

^[1]

Биоинформатика – перспективная сфера науки и стремительно развивающаяся индустрия. Применение информационных технологий в биологических исследованиях сегодня позволяет тестировать лекарственные препараты в виртуальной среде и расшифровывать последовательности ДНК за считанные часы. В этом материале мы расскажем о биоинформатике и о том, какие разработки ведутся в этой сфере в Университете ИТМО ^[2].

Что такое биоинформатика

Многие ученые сходятся в том, что биоинформатика предназначена для изучения биологических процессов с помощью современных вычислительных технологий. В самом деле, специалисты в этой области используют программы для визуализации последовательностей аминокислот, а также занимаются разработкой алгоритмов на основе теории вероятностей и математической статистики. Однако первоначальная цель биоинформатики была более общей: Полина Хогевег и Бен Хеспер в 1970 году определили ^[3] ее как «изучение информационных процессов в биотических системах».

Если ориентироваться на это определение, то зарождение науки можно отнести к XIII веку, когда Фибоначчи построил первую математическую модель процесса размножения кроликов. С тех пор ученые начали применять более формальные методы для описания биологических процессов. В 1953 году произошло одно из важнейших событий в истории биоинформатики, а возможно и науки в целом: Фрэнсис Крик и Джеймс Уотсон выявили ^[4] структуру ДНК, которая сегодня известна всем еще со школы.

Спустя два десятка лет были разработаны методы секвенирования ДНК – расшифровки ее последовательности, а затем был получен первый полный геном живого организма – бактериофага фХ174. Развитие технологий секвенирования позволило ускорить этот процесс, в результате чего удалось собрать последовательности геномов дрожжей и мухи-дрозофилы.

Поворотным моментом в истории биоинформатики стала сборка ^[5] в 2003 году генома человека: ученые со всего мира на протяжении 13 лет по кусочкам собирали его последовательность. С этого момента начинается так называемая постгеномная эра в развитии биоинформатики. Ее главной особенностью является колоссальный объем биологических данных, которые невозможно обработать вручную. Тут в дело вступают цифровые технологии, которые позволяют не только интерпретировать молекулярные данные, будь то последовательности нуклеиновых и аминокислот или строение белка, но и организовывать их в базы данных. Так, например, в банке данных GenBank хранится ^[6] более 11 миллиардов генов более чем ста тысяч организмов.

Кстати, сами исследователи не очень любят термин «расшифровка» генома: предпочитают использовать слово «сборка» или «определение последовательности генома» – это позволяет указать на то, что даже в тех областях, которые уже много лет находятся под пристальным наблюдением ученых, остаются нерешенные задачи. Например, в геноме человека до сих пор остается доля неизвестных фрагментов.

Более того, даже знание всей последовательности генома не указывает на его функции. Именно поэтому многие ученые, занятые в биоинформатике, сейчас изучают связи между уже известными генами и их влиянием на фенотип: фактически, исследователям приходится решать уже известные задачи, но быстрее и качественнее, используя новые методы и технологии.

Биоинформатика тесно переплетена с другими науками ^[7], в частности, с геномикой и протеомикой. Геномика изучает совокупность генов в организме. Имея большие базы геномов, мы можем выявлять сходство и различия генотипов живых существ, таким образом, делая выводы об особенностях отдельных видов и об эволюции в целом – этим занимается сравнительная геномика. Функции генов, а также влияние одних генов на другие изучает функциональная геномика. Благодаря методам структурной геномики создаются трехмерные модели белков, закодированных определенным геном.

Протеомика изучает совокупность продуктов экспрессии генов – белков. Особенно активно развивается область сравнительной протеомики, суть которой – в сравнении белкового состава, или протеома, живых организмов. Сравнение протеомов двух организмов позволяет выявить причины различия их фенотипов, что в свою очередь помогает понять ход эволюции. Также сравнительная протеомика дает возможность определять белки, негативно влияющие на развитие болезни, и тестировать на них лекарственные препараты.

С одной стороны, биоинформатика – междисциплинарная отрасль, которая содержит знания из молекулярной биологии, генетики, математики и компьютерных наук. С другой стороны, используя открытия в этих науках, биоинформатика также вносит весомый вклад в их развитие: частично это отражено в названиях современных технологий – деревья принятия решений, нейронные сети, генетические алгоритмы.

Разработки Университета ИТМО

На базе Университета ИТМО проводятся многочисленные исследования в области биоинформатики. В 2011 году была создана лаборатория ^[8] структурной биоинформатики, где проводятся эксперименты по моделированию белков и прогнозированию белок-белковых взаимодействий. Одной из последних разработок лаборатории является метод ^[9] изучения динамики белков, основанный на принципе переноса массы. Модель движений, которые проводятся на относительно больших расстояниях, вполне адекватна и исключает недостатки предыдущих моделей.

Один из руководителей НИИ биоинженерии Андрей Каява считает ^[10] не менее важной задачей выявление функций белков. Случайные перестройки в структуре белков могут привести к возникновению нейродегенеративных заболеваний, таких как болезни Альцгеймера и Паркинсона. Биоинформатика позволяет изучить последовательности аминокислот и предсказать вероятное возникновение этих болезней. Метод и программа ArchCandy, разработанные ^[11] научной группой Андрея Каявы, помогают решить проблему диагностики нейродегенеративных болезней на ранней стадии.

В ряде научных проектов активное участие принимали сотрудники кафедры компьютерных технологий. Началом их научно-исследовательского пути в биоинформатике стало участие в международном соревновании de novo Genome Assembly Assessment Project. Участникам удалось разработать ^[12] и протестировать метод сборки генома, позволяющий устранять ошибки в чтениях – данных, которые получают из специальных машин-секвенаторов.

В другой работе ^[13] молодых исследователей из Университета ИТМО описывается метод сборки контигов – длинных перекрывающихся сегментов ДНК – подразумевающий разбиение сборки на два этапа: на первом используется граф де Брюина, на втором – граф перекрытий. В более поздней работе также описан метод, где одним из этапов является микросборка: из чтений строится граф де Брюина, размер которого оказывается значительно меньше графа с первого этапа – отсюда название «микросборка». Результатом работы ученых стала программа для сборки генома ITMO Assembler, которую можно скачать по ссылке ^[14].

ДНК, новые технологии и геном человека: Биоинформатика в Университете ИТМО - 2

ДНК-секвенаторы ^[15]

Продолжением этой работы стало участие ^[16] сотрудников Университета ИТМО в проекте MetaFast. Суть проекта заключается в разработке программного комплекса, который позволяет сравнивать метагеномы – совокупности ДНК микроорганизмов – в различных средах. ДНК неспособных к размножению организмов, например, вирусов, сложно собрать, так как они дают лишь обрывочные данные. В базах ДНК слишком мало данных о вирусах и других бактериях, чтобы сравнивать с ними фрагменты полученных метагеномов, а на глубокий анализ уходит чересчур много времени.

Разработанная программа работает гораздо быстрее, проводя лишь частичные сбор и сравнение геномов. Кроме того, алгоритм позволяет выявлять закономерности даже в незнакомых средах. Как рассказывает сотрудник лаборатории «Компьютерные технологии» Университета ИТМО и главный разработчик алгоритма Владимир Ульянцев, такой подход помогает находить у пациентов микроорганизмы, отвечающие за склонность к конкретному заболеванию. Сравнивая микрофлору здоровых и больных людей, можно быстро выявить причину болезни и принять меры по ее устранению.

Программа MetaFast была протестирована в самых разных средах, в том числе с большим содержанием вирусов. Так, к примеру, ученые доказали безопасность микробов, обитающих под землей. Они обнаружили, что образцы, взятые в метро Нью-Йорка, по большей части принадлежат к уже известным бактериям.

Новый алгоритм также может быть полезен в изучении процессов урбанизации. Городская атмосфера негативно влияет на нашу микрофлору, а современные продукты уничтожают нужные организму бактерии. Сравнив метагеномы жителей крупных городов и отдаленных поселений, можно выяснить, что это за полезные бактерии и как их сохранить.

Сотрудники Университета ИТМО также приняли участие в международном проекте ^[17] по разработке веб-сервиса для комплексного изучения работы клеток. Программа GAM (genes and metabolites), разработкой которой занимался аспирант Университета ИТМО Алексей Сергушичев, выявляет связи между генами и изменениями в метаболизме.

Например, когда необходимо изучить процесс развития опухоли, программа берет исходные данные о концентрации метаболитов – простых веществ, участвующих в метаболизме – и экспрессии генов и сравнивает их с данными в базе KEGG. После этого строится карта метаболических путей, показывающая процесс изменения веществ в результате химических реакций.

Сервис будет полезен при лечении болезней, связанных с нарушением иммунной системы, и рака. Карты изменения метаболитов помогают проследить за развитием опухоли и разработать механизмы по ее сдерживанию на ранних стадиях. С помощью разработанного алгоритма ученые уже доказали, что, если замедлить процесс метаболизма при раке легких, скорость роста опухоли снизится.

В отличие от своих аналогов, веб-сервис GAM является одновременно простым, эффективным и, что важно, бесплатным, поэтому им может воспользоваться любой желающий. Сервисом пользуются уже в нескольких десятках лабораторий и фармацевтических компаний.

Заключение: коротко для тех, кто заинтересовался биоинформатикой

ДНК, новые технологии и геном человека: Биоинформатика в Университете ИТМО - 3

Многие студенты и выпускники, в том числе программисты и математики, интересуются, как попасть в сферу биоинформатики. Для начала нужно определиться с тем, какие задачи вам интересно решать. В биоинформатике спектр задач очень широк: начиная с чистой информатики и доказательства теорем и заканчивая чистой биологией, в которой приходится активно разбираться новичкам. Ясно, что большая часть исследований находится на стыке нескольких областей.

После необходимо выяснить, в каких местах занимаются тем, что вам интересно. Для этого придется изучить статьи конкретных лабораторий ^[18] и оценить, действительно ли вы хотите участвовать в их работе. Параллельно не помешает записаться на курсы в Институт биоинформатики ^[19] или поискать онлайн-курсы вроде тех, что предлагает Coursera ^[20]. Так можно получить представление о том, чем сейчас занимается биоинформатика и как она работает.

При этом важно понимать: поскольку биоинформатика – дисциплина, находящаяся на стыке нескольких областей, проекты в этой сфере могут быть связаны не только с использованием возможностей информатики для решения проблем биологии, но и наоборот. Яркий тому пример – составление ^[21] учебного расписания с помощью ДНК-компьютеров. Не говоря уже о синтетической биологии, в которой пытаются создавать или модифицировать микроорганизмы с определенной целью: например, чтобы лучше перерабатывать биотопливо.

Эти проекты и биоинформатика в целом – яркий пример тому, что современная наука может быть захватывающей и увлекательной – причем не только на экране «большого кино», но и в реальной жизни. И для того, чтобы принять участие в таких разработках, совершенно необязательно учиться или работать за рубежом: многие интересные и значимые проекты в области биоинформатики развиваются в российских университетах, в частности – в Университете ИТМО.

Автор: Университет ИТМО

Источник ^[22]

Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/bioinformatika/165318

Ссылки в тексте:

[1] Image: https://habrahabr.ru/company/spbifmo/blog/306824/

[2] Университете ИТМО: http://www.ifmo.ru/ru/

[3] определили: http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3068925/#pcbi.1002021-Hogeweg1

[4] выявили: http://www.nature.com/physics/looking-back/crick/index.html

[5] сборка: https://goo.gl/V4lhFJ

[6] хранится: http://niib.sfedu.ru/assets/files/Reports/UP_Bioinformacionnye podhody 0501.pdf

[7] науками: http://www.bioinformatics.org/wiki/Bioinformatics

[8] лаборатория: http://irc.ifmo.ru/ru/87813/

[9] метод: http://itas2013.iitp.ru/pdf/006.pdf

[10] считает: http://www.ifmo.ru/ru/viewnews/5114/schitaem_zhizn_chto_takoe_bioinformatika.htm

[11] разработанные: http://www.alzheimersanddementia.com/article/S1552-5260(14)02466-2/abstract

[12] разработать: http://is.ifmo.ru/works/2011/Vestnik/75-5/Aleksandrov-Kazakov-Melnikov-Sergushichev-Tsarev-Shalyto.pdf

[13] работе: http://rain.ifmo.ru/~svkazakov/papers/alexandrov-vestnik-itmo-2012.pdf

[14] ссылке: http://genome.ifmo.ru/ru/assembler

[15] ДНК-секвенаторы: https://commons.wikimedia.org/wiki/File:DNA-Sequencers_from_Flickr_57080968.jpg

[16] участие: http://bioinformatics.oxfordjournals.org/content/early/2016/06/16/bioinformatics.btw312

[17] проекте: http://nar.oxfordjournals.org/content/early/2016/04/20/nar.gkw266.full

[18] лабораторий: http://bioinformaticsinstitute.ru/labs

[19] Институт биоинформатики: http://bioinformaticsinstitute.ru/

[20] Coursera: https://www.coursera.org/specializations/bioinformatics

[21] составление: http://ria.ru/studies/20140314/999463260.html

[22] Источник: https://habrahabr.ru/post/306824/?utm_source=habrahabr&utm_medium=rss&utm_campaign=best

Нажмите здесь для печати.