Прогнозирование химических реакций с использованием алгоритмов машинного перевода

в 13:27, , рубрики: cheminformatics, IBM Research, химия

Прогнозирование химических реакций с использованием алгоритмов машинного перевода - 1
Согласно исследованию, опубликованному исследователями IBM (1), предсказание химических реакций можно заметно улучшить, рассматривая химическую реакцию как проблему перевода.

Идея использования вычислительных машин для облегчения работы химиков далеко не нова. Уже в далеком 1969 году Кори и Випке [1] продемонстрировали, что планирование синтеза и ретросинтеза (обратная задача, когда известен продукт, но неизвестен простой и дешевый метод синтеза) могут быть выполнены машиной. (2)
С появлением новых технологий машинного обучения возможно более качественное предсказание результатов химических превращений. В последние годы широко изучались методы прогнозирования на основе шаблонов реакций. Например, Сеглер и Валлер недавно представили нейросимволический подход (3). Они извлекли правила для реакций из коммерческой базы данных Reaxys. Затем они обучили нейронную сеть «молекулярными отпечатками реакций» для определения приоритетов правил и объединили сеть с методом Монте-Карло для поиска дерева (4), чтобы преодолеть проблемы масштабируемости других методов основанных на шаблонах.
Для обхода ограничений методов основанных на шаблонах и дальнейшего развития методов машинного предсказания реакций в 2012 году появился первый подход прогнозирования без использования шаблонов реакций (5). Исследователями из IBM был использован метод не основанный на шаблонах с использованием моделей Seq2seq для прогнозирования и ретросинтезе органических реакций. Схожий подход недавно опубликован Нам и Ким (6), которые также использовали не-шаблонные seq2seq модели. Их модель была основана на модели перевода Tensorflow (v0.10.10.0) (7), из которого они взяли значения по умолчанию для большинства гиперпараметров.

Прогнозирование химических реакций с использованием алгоритмов машинного перевода - 2
Интерфейс системы «Found in Translation» (7) от исследователей в IBM Research

Язык химических формул — это язык, которым люди описывают химические превращения и процессы, происходящие в окружающем мире. Язык, изобретенный людьми, может обрабатываться с использованием алгоритмов, аналогичных алгоритмам перевода. Используя эту гипотезу, исследователи из IBM приводили химические соединения в представление SMILES и предложили новый способ токенизации, который произвольно расширяем с новой реакционной информацией. Далее систему обучали наборами данных (источник — патентная база данных реакций), содержащим 395 тысяч химических реакций с использованием нейронной сети, часто используемой в машинном переводе. В статье (1) заявляется 80% точность прогнозирования без использования вспомогательных данных, таких как шаблонов реакции. Точность на 6 пунктов лучше других прогностических моделей. Кроме того, для больших и более шумных наборов данных достигается точность в 65.4%.

Авторы надеются, что этот метод ускорит исследования, такие как разработка лекарств, и рассчитывают открыть онлайн-доступ к системе в 2018 году (8).

Интервью:

Ссылки:

1. Schwaller P, Gaudin T, Lanyi D, Bekas C, Laino T. “Found in Translation”: Predicting Outcomes of Complex Organic Chemistry Reactions using Neural Sequence-to-Sequence Models. ArXiv171104810 Cs Stat [Internet]. 2017 Nov 13 [cited 2017 Dec 14]; Available from: arxiv.org/abs/1711.04810
2. Corey EJ, Wipke WT. Computer-Assisted Design of Complex Organic Syntheses. Science. 1969;166(3902):178–92.
3. Segler MHS, Waller MP. Neural-Symbolic Machine Learning for Retrosynthesis and Reaction Prediction. Chem – Eur J. 2017 May 2;23(25):5966–71.
4. Метод Монте-Карло для поиска в дереве [Internet]. [cited 2017 Dec 14]. Available from: habrahabr.ru/post/282522
5. Kayala MA, Baldi P. ReactionPredictor: Prediction of Complex Chemical Reactions at the Mechanistic Level Using Machine Learning. J Chem Inf Model. 2012 Oct 22;52(10):2526–40.
6. Nam J, Kim J. Linking the Neural Machine Translation and the Prediction of Organic Chemistry Reactions. ArXiv161209529 Cs [Internet]. 2016 Dec 29 [cited 2017 Dec 14]; Available from: arxiv.org/abs/1612.09529
7. Found in Translation: Neural Networks Predict Outcomes in Chemistry [Internet]. IBM Blog Research. 2017 [cited 2017 Dec 14]. Available from: www.ibm.comhttps://www.ibm.com/blogs/research/2017/12/neural-networks-organic-chemistry/
8. IBM Research — Zurich, Found in Translation chemistry app [Internet]. 2017 [cited 2017 Dec 14]. Available from: www.zurich.ibm.com/foundintranslation

Автор: ru1z

Источник

Поделиться

* - обязательные к заполнению поля