- PVSM.RU - https://www.pvsm.ru -

Согласно исследованию, опубликованному исследователями IBM (1) [1], предсказание химических реакций можно заметно улучшить, рассматривая химическую реакцию как проблему перевода.
Идея использования вычислительных машин для облегчения работы химиков далеко не нова. Уже в далеком 1969 году Кори и Випке [1] продемонстрировали, что планирование синтеза и ретросинтеза (обратная задача, когда известен продукт, но неизвестен простой и дешевый метод синтеза) могут быть выполнены машиной. (2)
С появлением новых технологий машинного обучения возможно более качественное предсказание результатов химических превращений. В последние годы широко изучались методы прогнозирования на основе шаблонов реакций. Например, Сеглер и Валлер недавно представили нейросимволический подход (3). Они извлекли правила для реакций из коммерческой базы данных Reaxys. Затем они обучили нейронную сеть «молекулярными отпечатками реакций» для определения приоритетов правил и объединили сеть с методом Монте-Карло для поиска дерева (4), чтобы преодолеть проблемы масштабируемости других методов основанных на шаблонах.
Для обхода ограничений методов основанных на шаблонах и дальнейшего развития методов машинного предсказания реакций в 2012 году появился первый подход прогнозирования без использования шаблонов реакций (5). Исследователями из IBM был использован метод не основанный на шаблонах с использованием моделей Seq2seq для прогнозирования и ретросинтезе органических реакций. Схожий подход недавно опубликован Нам и Ким (6), которые также использовали не-шаблонные seq2seq модели. Их модель была основана на модели перевода Tensorflow (v0.10.10.0) (7), из которого они взяли значения по умолчанию для большинства гиперпараметров.

Интерфейс системы «Found in Translation» (7) [2] от исследователей в IBM Research
Язык химических формул — это язык, которым люди описывают химические превращения и процессы, происходящие в окружающем мире. Язык, изобретенный людьми, может обрабатываться с использованием алгоритмов, аналогичных алгоритмам перевода. Используя эту гипотезу, исследователи из IBM приводили химические соединения в представление SMILES и предложили новый способ токенизации, который произвольно расширяем с новой реакционной информацией. Далее систему обучали наборами данных (источник — патентная база данных реакций), содержащим 395 тысяч химических реакций с использованием нейронной сети, часто используемой в машинном переводе. В статье (1) заявляется 80% точность прогнозирования без использования вспомогательных данных, таких как шаблонов реакции. Точность на 6 пунктов лучше других прогностических моделей. Кроме того, для больших и более шумных наборов данных достигается точность в 65.4%.
Авторы надеются, что этот метод ускорит исследования, такие как разработка лекарств, и рассчитывают открыть онлайн-доступ к системе в 2018 году (8 [3]).
Интервью:
Автор: ru1z
Источник [7]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/himiya/270726
Ссылки в тексте:
[1] опубликованному исследователями IBM (1): http://arxiv.org/abs/1711.04810
[2] «Found in Translation» (7): https://www.pvsm.ruhttp://www.ibm.comhttps://www.ibm.com/blogs/research/2017/12/neural-networks-organic-chemistry/
[3] 8: https://www.zurich.ibm.com/foundintranslation/
[4] habrahabr.ru/post/282522: https://habrahabr.ru/post/282522/
[5] arxiv.org/abs/1612.09529: http://arxiv.org/abs/1612.09529
[6] www.ibm.comhttps: http://www.ibm.comhttps
[7] Источник: https://geektimes.ru/post/296449/?utm_campaign=296449
Нажмите здесь для печати.