Прогнозирование химических реакций с использованием алгоритмов машинного перевода

Прогнозирование химических реакций с использованием алгоритмов машинного перевода - 1
Согласно исследованию, опубликованному исследователями IBM (1) ^[1], предсказание химических реакций можно заметно улучшить, рассматривая химическую реакцию как проблему перевода.

Идея использования вычислительных машин для облегчения работы химиков далеко не нова. Уже в далеком 1969 году Кори и Випке [1] продемонстрировали, что планирование синтеза и ретросинтеза (обратная задача, когда известен продукт, но неизвестен простой и дешевый метод синтеза) могут быть выполнены машиной. (2)
С появлением новых технологий машинного обучения возможно более качественное предсказание результатов химических превращений. В последние годы широко изучались методы прогнозирования на основе шаблонов реакций. Например, Сеглер и Валлер недавно представили нейросимволический подход (3). Они извлекли правила для реакций из коммерческой базы данных Reaxys. Затем они обучили нейронную сеть «молекулярными отпечатками реакций» для определения приоритетов правил и объединили сеть с методом Монте-Карло для поиска дерева (4), чтобы преодолеть проблемы масштабируемости других методов основанных на шаблонах.
Для обхода ограничений методов основанных на шаблонах и дальнейшего развития методов машинного предсказания реакций в 2012 году появился первый подход прогнозирования без использования шаблонов реакций (5). Исследователями из IBM был использован метод не основанный на шаблонах с использованием моделей Seq2seq для прогнозирования и ретросинтезе органических реакций. Схожий подход недавно опубликован Нам и Ким (6), которые также использовали не-шаблонные seq2seq модели. Их модель была основана на модели перевода Tensorflow (v0.10.10.0) (7), из которого они взяли значения по умолчанию для большинства гиперпараметров.

Прогнозирование химических реакций с использованием алгоритмов машинного перевода - 2
Интерфейс системы «Found in Translation» (7) ^[2] от исследователей в IBM Research

Язык химических формул — это язык, которым люди описывают химические превращения и процессы, происходящие в окружающем мире. Язык, изобретенный людьми, может обрабатываться с использованием алгоритмов, аналогичных алгоритмам перевода. Используя эту гипотезу, исследователи из IBM приводили химические соединения в представление SMILES и предложили новый способ токенизации, который произвольно расширяем с новой реакционной информацией. Далее систему обучали наборами данных (источник — патентная база данных реакций), содержащим 395 тысяч химических реакций с использованием нейронной сети, часто используемой в машинном переводе. В статье (1) заявляется 80% точность прогнозирования без использования вспомогательных данных, таких как шаблонов реакции. Точность на 6 пунктов лучше других прогностических моделей. Кроме того, для больших и более шумных наборов данных достигается точность в 65.4%.

Авторы надеются, что этот метод ускорит исследования, такие как разработка лекарств, и рассчитывают открыть онлайн-доступ к системе в 2018 году (8 ^[3]).

Интервью:

Ссылки:

1. Schwaller P, Gaudin T, Lanyi D, Bekas C, Laino T. “Found in Translation”: Predicting Outcomes of Complex Organic Chemistry Reactions using Neural Sequence-to-Sequence Models. ArXiv171104810 Cs Stat [Internet]. 2017 Nov 13 [cited 2017 Dec 14]; Available from: arxiv.org/abs/1711.04810 ^[1]
2. Corey EJ, Wipke WT. Computer-Assisted Design of Complex Organic Syntheses. Science. 1969;166(3902):178–92.
3. Segler MHS, Waller MP. Neural-Symbolic Machine Learning for Retrosynthesis and Reaction Prediction. Chem – Eur J. 2017 May 2;23(25):5966–71.
4. Метод Монте-Карло для поиска в дереве [Internet]. [cited 2017 Dec 14]. Available from: habrahabr.ru/post/282522 ^[4]
5. Kayala MA, Baldi P. ReactionPredictor: Prediction of Complex Chemical Reactions at the Mechanistic Level Using Machine Learning. J Chem Inf Model. 2012 Oct 22;52(10):2526–40.
6. Nam J, Kim J. Linking the Neural Machine Translation and the Prediction of Organic Chemistry Reactions. ArXiv161209529 Cs [Internet]. 2016 Dec 29 [cited 2017 Dec 14]; Available from: arxiv.org/abs/1612.09529 ^[5]
7. Found in Translation: Neural Networks Predict Outcomes in Chemistry [Internet]. IBM Blog Research. 2017 [cited 2017 Dec 14]. Available from: www.ibm.comhttps ^[6]://www.ibm.com/blogs/research/2017/12/neural-networks-organic-chemistry/
8. IBM Research — Zurich, Found in Translation chemistry app [Internet]. 2017 [cited 2017 Dec 14]. Available from: www.zurich.ibm.com/foundintranslation ^[3]

Автор: ru1z

Источник ^[7]

Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/himiya/270726

Ссылки в тексте:

[1] опубликованному исследователями IBM (1): http://arxiv.org/abs/1711.04810

[2] «Found in Translation» (7): https://www.pvsm.ruhttp://www.ibm.comhttps://www.ibm.com/blogs/research/2017/12/neural-networks-organic-chemistry/

[3] 8: https://www.zurich.ibm.com/foundintranslation/

[4] habrahabr.ru/post/282522: https://habrahabr.ru/post/282522/

[5] arxiv.org/abs/1612.09529: http://arxiv.org/abs/1612.09529

[6] www.ibm.comhttps: http://www.ibm.comhttps

[7] Источник: https://geektimes.ru/post/296449/?utm_campaign=296449

Нажмите здесь для печати.