- PVSM.RU - https://www.pvsm.ru -

Лекции по биоинформатике: анализ данных, нейросети, и их применение в биологии и медицине

Почти год назад, летом 2017 года, на базе МФТИ состоялась традиционная летняя школа от Института биоинформатики. Основной темой школы в этом году стал интеллектуальный анализ данных. Почему? Количество получаемых данных в биологии и медицине растет с невероятной скоростью. В то же время обнаружить ранее неизвестные вещи в таком объеме информации вручную физически невозможно (да и классическими алгоритмами уже тоже сложновато), поэтому приходится использовать статистику и дополнять естественный интеллект искусственным.

Именно этим активно и занимались участники летней школы. В этом посте собрана 21 видеозапись лекций со слайдами и описанием для всех интересующихся темой анализа данных в биоинформатике. Лекции, которые можно смотреть без дополнительной подготовки, отмечены звёздочкой «*» (их больше половины).

image

1*. Введение в биоинформатику (Александр Предеус, Институт биоинформатики)

Видео [1] | Слайды [2]

В лекции рассмотрены основные области, в которых работают биоинформатики в науке и индустрии, особенности биоинформатики и причины ее популярности сегодня.


image

2*. Введение в машинное обучение (Григорий Сапунов, Intento)

Видео [3] | Слайды [4]

Постоянный рост количества данных способствует развитию все более и более сложных процессов обработки, поиска и извлечения информации. Один из способов решения подобных задач заключается в использовании искусственного интеллекта. Эта лекция посвящена краткому введению в основы машинного обучения. Григорий рассказал общую терминологию в этой области, а также описал виды задач, решаемых машинным обучением. Помимо этого, лекция знакомит с основными этапами машинного обучения, видами моделей и метриками качества полученных данных.

3*. Введение в Deep Learning (Григорий Сапунов, Intento)

Видео [5] | Слайды [6]

Глубокое обучение (или deep learning) в настоящее время набирает популярность из-за возможности не прописывать конкретные алгоритмы для решения задачи, а использовать обучение представлениям. Развитию этих методов также способствует увеличение вычислительной мощности процессоров. Лекция посвящена основам нейросетей: их видам (полносвязные нейросети, автоэнкодеры, свёрточные, рекуррентные) и решаемым ими задачам. Отдельно Григорий обрисовал современное состояние и тренды.


image

4*. Введение в онкогеномику и анализ омиксных данных в онкологии (Михаил Пятницкий, НИИ биомедицинской химии им. В.Н.Ореховича)

Видео [7] | Слайды [8]

Секвенирование человеческого генома, изучение человеческих генетических вариаций, секвенирование метагенома человека, транскриптомный анализ человеческих тканей — все эти биологические методы в приложении к “Big Data” дали ученым большой объем ценной информации о том, что отличает человека от других животных. Эта лекция посвящена «омикам» и их практическому использованию. Отдельно Михаил затронул использование этих данных в онкологии.


image

5. Мультиомика в биологии: интеграция технологий (Константин Оконечников, German Cancer Research Center)

Видео [9] | Слайды [10]

Бурное развитие экспериментальных технологий в молекулярной биологии, таких как например, секвенирование, позволили совместить в себе изучение большого спектра функциональных процессов происходящих в клетках, органах или даже целом организме. В лекции рассмотрено как правильно совмещать массивные экспериментальные данные, полученные из геномики, транксриптомики и эпигеномики для установления связей между компонентами происходящих биологических процессов. Наглядные примеры применения мультиомики выбраны из высоко востребованной области исследований раковых заболеваний с фокусом на педиатрическую онкологию.


image

6. Количественная генетика: история и перспективы (Юрий Аульченко, лаборатория теоретической и прикладной функциональной геномики ФЕН НГУ, группа методов генетического анализа, ИЦиГ СО РАН)

Видео [11] | Слайды [12]

Количественная генетика — точная наука, которая основывается на небольшом числе ключевых наблюдений и базовых моделей, позволяющих дать количественное описание природных (микро)эволюционных явлений и предсказать результаты генетических экспериментов. Она использует мощный математический аппарат. Многие современные методы статистики были изначально разработаны для решения проблем количественной генетики. Прорывное развитие молекулярно-биологических технологий за последнее десятилетие позволило характеризовать сотни тысяч живых организмов по миллионам геномных и других «омиксных» параметров. Общее количество проведенных экспериментов и уже накопленных данных колоссально. Актуальная задача современной количественной генетики — разработка моделей, которые позволят описать наследования многоуровневых фенотипических высокой размерности. В своей лекции Юрий дал краткий обзор истории количественной генетики и проблем, которые стоят перед этой наукой.


image

7*. Технологии секвенирования (Кирилл Григорьев, Caribbean Genome Center, University of Puerto Rico)

Видео [13] | Слайды [14]

Развитие и эволюция процессов секвенирования неразрывно связаны с эволюцией технологических возможностей. Лекция показывает историю и процесс развития технологий секвенирования от Сэнгера до наших дней. Отдельно Кирилл рассказал про преимущества и недостатки каждого из существующих в настоящее время методов, а также о характере получаемых данных и их применении в различных областях.


8. Транскриптомика: практические методы и применяемые алгоритмы (Александр Предеус, Институт биоинформатики)

Видео [15] | Слайды [16]

Транскриптомика уверенно заняла место в списке самых популярных задач, встающих перед NGS-биоинформатиками. Дифференциальный анализ экспрессии генов, кластеризация экспрессионных данных, и интерпретация полученных данных в терминах метаболических и сигнальных каскадов позволяют получить богатейшую информацию о практически любой системе. В лекции рассмотрены лучшие пайплайны, основные проблемные места в дизайне экспериментов и обработке, а также практические случаи удачного применения транскриптомных подходов.


image

9. Анализ данных NGS в медицинской генетике: определение, аннотация и интерпретация генетических вариантов (Юрий Барбитов, СПбГУ, Александр Предеус, Институт биоинформатики)

Видео [17] | Слайды [18]

Использование секвенирования нового поколения давно ушло за пределы классической науки и успешно применяется во многих других областях, в том числе в здравоохранении. Лекция посвящена ключевым аспектам анализа данных секвенирования нового поколения в медицинской генетике. Юрий показал весь путь от получения сырых ридов до постановки диагноза, с упоминанием трудностей, возникающих при определении, аннотации и интерпретации генетических вариантов. Отдельно он затронул распространенные ошибки, допускаемые на каждом из этапов обработки данных. В заключение дан краткий обзор перспективных направлений исследований, способных улучшить точность постановки диагноза с использованием методов высокопроизводительного секвенирования


10. Практическое применение ChIP-Seq и родственных методов (Александр Предеус, Институт биоинформатики)

Видео [19] | Слайды [20]

Методы ChIP-Seq, а также «геномного футпринтинга» (ATAC-Seq, FAIRE-Seq, DNase-Seq) широко применяются для нахождения механизмов регуляции биологических процессов, в частности, для транскрипционной регуляции. Потенциальное пространство изучаемых факторов очень многомерно, однако селективный подход позволяет получить богатую информацию о регуляции в системе на основании всего нескольких экспериментов. На примере конфликтующих современных теорий, Александр показал основные сложности интерпретации регуляторной информации, и способы консолидации полученных результатов.


image

11*. Что можно делать с данными iScan (Татьяна Татаринова, University of La Verne )

Видео [21] | Слайды [22]

Компания Illumina выпускает большое количество приборов под различные нужды. Чипирование позволяет быстро обнаруживать однонуклеотидные полиморфизмы (SNP) для большого количества образцов. Лекция посвящена обзору данных чипов iScan и их применению в клинической диагностике.


image

12. Глубокое обучение в вычислительной биологии (Дмитрий Фишман, University of Tartu)

Видео [23] | Слайды [24]

Глубокое обучение активно используется не только для улучшения машинного перевода или распознавания речи, но и позволяет решить многие проблемы в области вычислительной биологии. Лекция посвящена применению методов глубокого обучения на конкретных биологических примерах. Дмитрий рассказал о том, что нового происходит в биологии и медицине с использованием глубокого обучения, и можно ли говорить о том, что машины революционизируют медицину и биологию.


image

13*. Применение методов машинного обучения для поиска потенциальных патогенных мутаций в геноме человека (Анна Ершова, МФТИ, НИИ физико-химической биологии МГУ им. М.В. Ломоносова, ФНИЦ эпидемиологии и микробиологии им. Н.Ф. Гамалеи)

Видео [25] | Слайды [26]

Поиск патогенных мутаций стал актуальным в связи с секвенированием генома человека. Однако, вручную такую задачу решить просто невозможно. Лекция посвящена тому, как машинное обучение может помочь справиться с этой задачей.


image

14*. Иммуноинформатика (Вадим Назаров, НИУ ВШЭ, ИБХ РАН)

Видео [27] | Слайды [28]

Машинное обучение уже довольно давно активно применяется в самых разных сферах жизни, но в иммунологии для него нашли место совсем недавно. В этой лекции Вадим рассказал о нескольких примерах применения машинного и глубинного обучения в иммунологии, включая задачу предсказания связывания МНС-пептид комплексов и анализа репертуаров Т-клеточных рецепторов.


image

15*. Изучение адаптации к хозяину и развития резистентности в вирусах ВИЧ и гепатита С с помощью методов структурной биоинформатики (Ольга Калинина, Институт информатики общества Макса Планка)

Видео [29] | Слайды [30]

Вирус иммунодефицита человека (ВИЧ) и вирус гепатита С вызывают тяжелые заболевания, которые с трудом поддаются терапии. Как и многие другие ретро- и РНК-вирусы, эти вирусы быстро эволюционируют и, таким образом, могут приспосабливаться как к воздействию специфических антивирусных препаратов, так и к адаптивному иммунному ответу со стороны организма хозяина. В этой лекции Ольга показала, как с помощью комбинирования анализа последовательностей вирусных белков с анализом их пространственной структуры можно делать предсказания о развитии механизмов резистентности и взаимодействии вирусов с иммунной системой хозяина.


image

16. Предсказание эффекта мутаций (Василий Раменский, МФТИ)

Видео [31] | Слайды [32]

Современные методы секвенирования дают огромный объем информации о полиморфизме генома, то есть отличиях индивидуальных геномов друг от друга. Эти отличия (варианты) возникают в результате мутаций при репликации ДНК и частично фиксируются в популяции. Распространенность, локализация и функциональный эффект геномных вариантов сильно различаются – от полной летальности до отсутствия какого-либо влияния на индивидуальный фенотип. В лекции рассмотрены современные подходы к предсказанию функционального эффекта вариантов, используемые в персонализированной медицине, медицинской и популяционной генетике.


image

17. Многомасштабное моделирование и дизайн биологических молекул (Николай Дохолян, University of North Carolina at Chapel Hill)

Видео [33]

Жизнь биологических молекул охватывает масштабы времени и длины, соответствующие шкалам времени и длины от атомного до клеточного. Следовательно, новые подходы к молекулярному моделированию должны быть по своей сути многомасштабными. В своей лекции Николай описал несколько методологий, разработанных в его лаборатории: алгоритм быстрого дискретного молекулярного динамического моделирования, белковый дизайн и инструменты структурной доработки. Используя эти методологии, можно описать несколько приложений, которые проливают свет на молекулярную этиологию кистозного фиброза и находят новые фармацевтические стратегии для борьбы с этим заболеванием, моделируют структуру трехмерной РНК и разрабатывают новые подходы к контролю белков в живых клетках и организмах.


image

18. Гомологичный фолдинг белков (Павел Яковлев, BIOCAD)

Видео [34]

В современной структурной биологии есть ряд вычислительных методов, позволяющих с высокой достоверностью характеризовать биологические молекулы, их схожесть и различия, способы взаимодействия и функции. Для построения подобных вычислений входным параметром всегда выступает пространственная структура белка, однако ее получение может быть затруднен, несмотря на полувековой прогресс в области кристаллографии. Лекция посвящена решению этой проблемы с помощью гомологичного моделирования структур белков — построения трехмерных структур из схожих фрагментов. Для примера рассмотрены вариабельные домены антител — белков, обладающих уникальным структурным разнообразием вариабельных петель.


image

19. Как перестать медитировать и начать моделировать (Артур Залевский, МГУ им. М. В. Ломоносова)

Видео [35] | Слайды [36]

Большое количество данных, получаемых методом NGS, позволяет не только получать из этого биологические выводы, но и использовать их для моделирования. Построенные модели позволяют лучше понять биологические данные и получить еще больше биологического смысла из эксперимента. Лекция посвящена моделированию и начальным этапам этого процесса.


image

20*. Стоя на плечах гигантов, или зачем нужны консорциумы (Герман Демидов, Centre for Genomic Regulation, The Barcelona Institute of Science and Technology, Universitat Pompeu Fabra)

Видео [37] | Слайды [38]

За последние десятилетия развитие биологии было связано с накоплением массивов данных, огромных настолько, что отдельные исследовательские группы уже не справлялись с их биоинформатическим анализом. С целью решить эту проблему начали создаваться консорциумы из десятков лабораторий, такие как Human Genome Project, 1000GP, ENCODE и другие. Благодаря таким коллаборациям, в открытом доступе есть данные разнообразных типов, полученные с помощью различных технологий. Как результат, сравнение новых экспериментальных данных с уже существующими стало стандартной частью любого исследования. Консорциумы производят не только данные, но и биоинформатические пайплайны для их обработки, и стандартные форматы, и процедуры оценки качества. На этой лекции обсуждается, как работают консорциумы, как пользоваться результатами их работы и что делать, если вы вдруг обнаружили себя членом такого консорциума и вам нужно обрабатывать терабайты данных, а потом обмениваться результатами со всеми остальными участниками.


image

21*. Обзор биоинформатических компаний в России и мире (Андрей Афанасьев, yRisk)

Видео [39] | Слайды [40]

В современном мире наука и бизнес все более и более переплетаются. Не обошел этот тренд и область биоинформатики. Андрей рассказал об ожиданиях и реальности рынка, об историях успеха и историях провалов, о людях и местах, связанных с биоинформатикой.


Послесловие

Для тех, кто ничего не понял хочет развиваться в области биоинформатики — до 27 мая ещё открыт прием заявок на летнюю школу [41] в этом 2018-м году. Сама школа пройдет 23–28 июля под Санкт-Петербургом. Есть шанс вскочить в последний вагон и гордо всем показывать пост с обзором лекций следующего года, говоря, что видели это лично.

В 2017 году школа проводилась при поддержке наших постоянных партнеров – компаний JetBrains [42], BIOCAD [43] и EPAM Systems [44], за что им огромное спасибо.

Кстати, пост с лекциями позапрошлых школ [45].

Всем биоинформатики!

image

Автор: Николай Вяххи

Источник [46]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/bioinformatika/280767

Ссылки в тексте:

[1] Видео: https://www.youtube.com/watch?v=gekNhNFLU8E&list=PLjKdf6AHvR-F-hRupXa-Droqd4OSyzIWk&index=17

[2] Слайды: http://bioinformaticsinstitute.ru/sites/default/files/3107_predeus_0.pdf

[3] Видео: https://www.youtube.com/watch?v=qqv2BlHPw54&index=8&list=PLjKdf6AHvR-F-hRupXa-Droqd4OSyzIWk

[4] Слайды: http://bioinformaticsinstitute.ru/sites/default/files/vvedenie_v_mashinnoe_obuchenie.pdf

[5] Видео: https://www.youtube.com/watch?v=40mnpYTPpJg&index=9&list=PLjKdf6AHvR-F-hRupXa-Droqd4OSyzIWk

[6] Слайды: http://bioinformaticsinstitute.ru/sites/default/files/vvedenie_v_deep_learning.pdf

[7] Видео: https://www.youtube.com/watch?v=FMzVSazovLQ&list=PLjKdf6AHvR-F-hRupXa-Droqd4OSyzIWk&index=1

[8] Слайды: http://bioinformaticsinstitute.ru/sites/default/files/bioinf_school.pdf#overlay-context=summer2017/slides

[9] Видео: https://www.youtube.com/watch?v=_SoSU1QGA84&index=12&list=PLjKdf6AHvR-F-hRupXa-Droqd4OSyzIWk

[10] Слайды: http://bioinformaticsinstitute.ru/sites/default/files/sbs_2017_okonechnikov_3.pdf

[11] Видео: https://www.youtube.com/watch?v=kCWnTs9kNKk&index=6&list=PLjKdf6AHvR-F-hRupXa-Droqd4OSyzIWk

[12] Слайды: http://bioinformaticsinstitute.ru/sites/default/files/3107_aulchenko.pdf

[13] Видео: https://www.youtube.com/watch?v=Ilaie-g1VG0&index=11&list=PLjKdf6AHvR-F-hRupXa-Droqd4OSyzIWk

[14] Слайды: http://bioinformaticsinstitute.ru/sites/default/files/grigorev_-_tehnologii_sekvenirovaniya_compressed.pdf

[15] Видео: https://www.youtube.com/watch?v=RLtDf7lIzNw&index=16&list=PLjKdf6AHvR-F-hRupXa-Droqd4OSyzIWk

[16] Слайды: http://bioinformaticsinstitute.ru/sites/default/files/lsh2017_-_lekciya_2-_transkriptomika.pdf

[17] Видео: https://www.youtube.com/watch?v=L2gkfc5X4r0&list=PLjKdf6AHvR-F-hRupXa-Droqd4OSyzIWk&index=5

[18] Слайды: http://bioinformaticsinstitute.ru/sites/default/files/20170801_bioss_medgen.pdf

[19] Видео: https://www.youtube.com/watch?v=aJJ8_xfyeEk&index=15&list=PLjKdf6AHvR-F-hRupXa-Droqd4OSyzIWk

[20] Слайды: http://bioinformaticsinstitute.ru/sites/default/files/predeus_chip-seq.pdf

[21] Видео: https://www.youtube.com/watch?v=R29P9oH4GT8&list=PLjKdf6AHvR-F-hRupXa-Droqd4OSyzIWk

[22] Слайды: http://bioinformaticsinstitute.ru/sites/default/files/tatarinova.pdf

[23] Видео: https://www.youtube.com/watch?v=RJYccja-O8k&list=PLjKdf6AHvR-F-hRupXa-Droqd4OSyzIWk&index=20

[24] Слайды: http://bioinformaticsinstitute.ru/sites/default/files/deeplearninginhealthcare.pdf

[25] Видео: https://www.youtube.com/watch?v=BRuWHtTnQ0o&list=PLjKdf6AHvR-F-hRupXa-Droqd4OSyzIWk&index=13

[26] Слайды: http://bioinformaticsinstitute.ru/sites/default/files/ershova_mashine_learning.pdf

[27] Видео: https://www.youtube.com/watch?v=KsFZmH80f9s&list=PLjKdf6AHvR-F-hRupXa-Droqd4OSyzIWk&index=10

[28] Слайды: http://bioinformaticsinstitute.ru/sites/default/files/nazarov_-_mhc_binding_prediction.pdf

[29] Видео: https://www.youtube.com/watch?v=zhPJfHMopcc&index=14&list=PLjKdf6AHvR-F-hRupXa-Droqd4OSyzIWk

[30] Слайды: http://bioinformaticsinstitute.ru/sites/default/files/mipt_31072017_kalinina_0.pdf

[31] Видео: https://www.youtube.com/watch?v=lfP3lUL6ho0&list=PLjKdf6AHvR-F-hRupXa-Droqd4OSyzIWk&index=3

[32] Слайды: http://file///Users/katyavyahhi/Desktop/108_ramensky%20(1).pdf

[33] Видео: https://www.youtube.com/watch?v=2ztBfRVg6Lc&index=19&list=PLjKdf6AHvR-F-hRupXa-Droqd4OSyzIWk

[34] Видео: https://www.youtube.com/watch?v=u-kK8NM-wOY&index=7&list=PLjKdf6AHvR-F-hRupXa-Droqd4OSyzIWk

[35] Видео: https://www.youtube.com/watch?v=OgAVTa2p-rs&index=18&list=PLjKdf6AHvR-F-hRupXa-Droqd4OSyzIWk

[36] Слайды: http://bioinformaticsinstitute.ru/sites/default/files/pres_zal.pdf#overlay-context=summer2017/slides

[37] Видео: https://www.youtube.com/watch?v=4_dSkjBLBio&list=PLjKdf6AHvR-F-hRupXa-Droqd4OSyzIWk&index=4

[38] Слайды: http://bioinformaticsinstitute.ru/sites/default/files/demidov_consortium_2017.pdf

[39] Видео: https://www.youtube.com/watch?v=iMgF8AS0wmg&list=PLjKdf6AHvR-F-hRupXa-Droqd4OSyzIWk&index=2

[40] Слайды: http://bioinformaticsinstitute.ru/sites/default/files/obzor_bioinformaticheskih_kompaniy_v_rossii_i_v_mire.pdf

[41] летнюю школу: http://bioinf.me/summer

[42] JetBrains: http://jetbrains.ru

[43] BIOCAD: https://biocad.ru

[44] EPAM Systems: http://www.epam.kz

[45] пост с лекциями позапрошлых школ: https://geektimes.com/post/289173/

[46] Источник: https://geektimes.com/post/301059/?utm_campaign=301059