- PVSM.RU - https://www.pvsm.ru -

«Массовый продукт»: первое коммерческое ДНК-хранилище представят в 2019 году

Запустить сервис планирует [1] стартап Catalog. Компания разрабатывает специальную установку [2], которая позволит ежедневно записывать терабайт данных в 500 трлн ДНК-молекул.

Далее расскажем о подходе, используемом Catalog, и других свежих разработках на ДНК-поприще.

«Массовый продукт»: первое коммерческое ДНК-хранилище представят в 2019 году - 1 [3]
/ фото University of Michigan [4] CC [5]

Подробности проекта

Классический подход к записи данных в ДНК предполагает преобразование последовательности битов ― нулей и единиц ― в последовательность из четырех базовых оснований ДНК. Например, азотистые основания аденин (A), тимин (T), гуанин (G) и цитозин ( С) можно представить так: A = 00, T = 01, G = 10, C = 11.

Пользуясь этим подходом, в 2016 году компании Microsoft удалось [6] «увековечить» 200 Мбайт текста и видео в синтетических молекулах ДНК (о чем мы уже писали в одном из постов [7]). Однако такой способ плохо подходит для массовой записи данных, при этом являясь дорогостоящим.

Вместо того чтобы использовать миллионы ДНК-цепочек, исследователи из Catalog предлагают генерировать большое количество различных ДНК-молекул, состоящих не более чем из 30 пар оснований. Затем за счет ферментативных реакций [8] эти предварительно подготовленные «кусочки» формируют особые паттерны, которые и кодируют информацию. Таким образом, вместо того чтобы представлять одно азотистое основание, биты выстраиваются в многомерные матрицы. А группы молекул отражают положение битов в этих матрицах.

Девин Лик (Devin Leake), руководитель исследовательского направления Catalog, приводит [2] следующую аналогию: «Представьте, что у вас есть книга. Вы можете скопировать её вручную: букву за буквой. Точно также можно писать данные в ДНК ― молекулу за молекулой. Этот подход использовали в Microsoft. Мы же предлагаем создать своеобразный «печатный станок», где молекулы ДНК будут гарнитурой [9]. Таким образом, переставляя предварительно сгенерированные молекулы, мы работаем сразу с целыми словами, расставляя их в нужном порядке».

Используя этот метод, исследователи из Catalog успешно [1] записали и восстановили данные в ДНК. Для этого они использовали стихотворение The Road Not Taken [10] (в одном из переводов ― «Другая дорога») Роберта Фроста. Сейчас компания решает задачу масштабирования платформы под нужды ИТ-компаний и правительственных организаций.

По словам [11] одного из основателей Catalog Хинджана Парка (Hyunjun Park), такой подход позволит сделать терабайтные ДНК-хранилища коммерчески выгодными уже к началу 2019 года. Однако точная стоимость услуги хранения данных, которую будет предлагать стартап, пока неизвестна.

Аналогичные разработки

Как уже было отмечено, вопросами создания ДНК-хранилищ занимаются в Microsoft. И с 2016 года исследователи из компании продвинулись [12] в своих разработках: в феврале 2018 они создали «библиотеку праймеров [13]» для организации произвольного доступа к ДНК. Каждый из праймеров «привязан» к конкретной цепочке, потому с помощью полимеразной цепной реакции [14] можно выбрать любую из них (и получить доступ к записанным данным).

«Массовый продукт»: первое коммерческое ДНК-хранилище представят в 2019 году - 2
/ фото Col Ford and Natasha de Vere [15] CC [5]

В компании надеются, что такой подход вкупе с новым, менее восприимчивым к ошибкам алгоритмом записи и чтения данных, в будущем поможет создать ДНК-хранилища объемом в несколько терабайт. В планах ИТ-гиганта предоставлять ДНК-хранилище as a service. Компания задалась целью [16] осуществить задумку к 2020 году.

Взаимовыгода ДНК и AI

С записью информации на ДНК-носитель уже нет особых трудностей: компании придумали способы автоматизации. А вот процесс считывания информации по-прежнему сложен и требует много времени. Чтобы решить и эту проблему компания Lifebit планирует [17] использовать системы ИИ. В Lifebit разрабатывают облачную платформу Deploit на базе алгоритмов МО, которая позволит автоматизировать процесс чтения информации из ДНК-носителей.

Таким образом, машинное обучение поспособствует в организации ДНК-хранилищ. Однако справедливо и обратное ― молекулы ДНК используются для создания систем искусственного интеллекта. Например, в этой сфере работают [18] исследователи из Caltech.

Принцип работы их нейронной сети основан [19] на химических реакциях, получивших название смещение нитей [20] (механизм репликации ДНК, известный у некоторых вирусов), когда нить, называемая входящей, вытесняет одну из нитей оригинальной ДНК. «Интеллектуальную систему» уже научили [21] распознавать цифры, написанные от руки.

Цифра отрисовывается на квадратной плоскости, разделенной на сто одинаковых ячеек (10x10) ― своеобразные пиксели. Каждая из этих ячеек представлена молекулой ДНК, которая «знает», есть ли на этом пикселе кусочек цифры. После все молекулы смешивают в одной пробирке, и «ДНК-сеть» дает свой ответ с помощью флуоресцентных сигналов. Пробирка начинает излучать свечение, цвет которого зависит от распознанной цифры. Например, зеленый и желтый цвета означают цифру пять, а зеленый и красный ― цифру девять.

В планах исследователей сформировать у нейронной сети некое подобие памяти, чтобы она «запоминала» обучающие векторы и использовала их для решения других задач.

O Catalog

Catalog ― это американский стартап, основанный в 2016 году, который занимается разработкой технологий хранения данных в молекулах ДНК. Штаб-квартира располагается в Бостоне, Массачусетс.


P.S. Пара дополнительных материалов из Первого блога о корпоративном IaaS:

P.P.S. Другие посты по теме из нашего блога на Хабре:

Автор: ИТ-ГРАДовец

Источник [26]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/blog-kompanii-it-grad/288222

Ссылки в тексте:

[1] планирует: https://www.geek.com/news/first-commercial-dna-storage-system-coming-soon-1745119/

[2] разрабатывает специальную установку: https://www.wired.com/story/the-rise-of-dna-data-storage

[3] Image: https://habr.com/company/it-grad/blog/419219/

[4] University of Michigan: https://www.flickr.com/photos/snre/6800806054/

[5] CC: https://creativecommons.org/licenses/by/2.0/

[6] удалось: https://blogs.microsoft.com/ai/microsoft-university-washington-researchers-set-record-dna-storage/

[7] одном из постов: https://habr.com/company/it-grad/blog/329400/

[8] ферментативных реакций: http://www.drau.ru/article/137.html

[9] гарнитурой: https://en.wikipedia.org/wiki/Typeface

[10] The Road Not Taken: https://en.wikipedia.org/wiki/The_Road_Not_Taken

[11] словам: https://www.milkeninstitute.org/videos/view/things-that-will-blow-your-mind

[12] продвинулись: https://www.zdnet.com/article/microsofts-dna-storage-breakthrough-could-pave-way-for-exabyte-drives/

[13] праймеров: https://ru.wikipedia.org/wiki/%D0%9F%D1%80%D0%B0%D0%B9%D0%BC%D0%B5%D1%80

[14] полимеразной цепной реакции: https://ru.wikipedia.org/wiki/%D0%9F%D0%BE%D0%BB%D0%B8%D0%BC%D0%B5%D1%80%D0%B0%D0%B7%D0%BD%D0%B0%D1%8F_%D1%86%D0%B5%D0%BF%D0%BD%D0%B0%D1%8F_%D1%80%D0%B5%D0%B0%D0%BA%D1%86%D0%B8%D1%8F

[15] Col Ford and Natasha de Vere: https://www.flickr.com/photos/col_and_tasha/5021269862/

[16] задалась целью: https://www.fanaticalfuturist.com/2017/05/microsoft-will-offer-dna-storage-in-the-cloud-by-2020/

[17] планирует: https://techcrunch.com/2018/07/19/lifebit-raises-3m-to-scale-up-ai-powered-analysis-of-dna-data/

[18] работают: http://www.dailymail.co.uk/sciencetech/article-5922275/Scientists-created-AI-inside-test-tube-using-strands-DNA.html

[19] основан: https://www.nature.com/articles/s41586-018-0289-6

[20] смещение нитей: https://ru.wikipedia.org/wiki/%D0%9D%D0%B0%D0%BD%D0%BE%D1%82%D0%B5%D1%85%D0%BD%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D0%B8_%D0%BD%D0%B0_%D0%BE%D1%81%D0%BD%D0%BE%D0%B2%D0%B5_%D0%94%D0%9D%D0%9A

[21] научили: https://motherboard.vice.com/en_us/article/594mvz/ai-made-from-human-dna

[22] NetApp от А до Я: обзор технологий вендора для современных СХД: https://iaas-blog.it-grad.ru/funkcionalnost/netapp-ot-a-do-ya-obzor-texnologij-vendora-ispolzuemyx-v-sovremennyx-sxd/

[23] Как протестировать дисковую систему в облаке: https://iaas-blog.it-grad.ru/blog/testirovanie-diskovoj-sistemy-v-oblake/

[24] Что скрывается за термином vCloud Director ― взгляд изнутри: https://iaas-blog.it-grad.ru/funkcionalnost/chto_skryvaetsa_za_terminom_vcloud_director_vzglyad_isnutri/

[25] «Принцип макарон»: ученые организовали произвольный доступ к ДНК-памяти: https://habr.com/company/it-grad/blog/359040/

[26] Источник: https://habr.com/post/419219/?utm_source=habrahabr&utm_medium=rss&utm_campaign=419219