- PVSM.RU - https://www.pvsm.ru -

В ДНК сохранили операционную систему и видеоролик, а затем прочитали без ошибок

image

В скором времени человечество будет генерировать так много данных, что привычные хранилища перестанут справляться. Чтобы решить эту проблему, ученые обратились к практически безграничному природному вместилищу информации – ДНК. По мнению исследователей, ДНК – идеальная среда для хранения, поскольку она ультра-компактная и может сохранять свои свойства сотни тысяч лет, если обеспечить соответствующие условия хранения. Об этом свидетельствует недавнее восстановление [1] ДНК из костей 43-тысячелетнего предка человека, найденного в пещерах Испании.

В новом исследовании ученые из Колумбийского университета [2] и Нью-Йоркского центра генома (NYGC [3]) продемонстрировали, что алгоритм, предназначенный для стриминга видео на смартфоне, может практически полностью раскрыть потенциал ДНК в хранении и сжатии дополнительной информации в четырех нуклеотидных основаниях.

Идея и общие соображения о возможностях записи, хранения и поиска информации в молекулах ДНК принадлежат Михаилу Нейману [4] – советскому ученому-физику. В 1964 году в журнале «Радиотехника» был опубликован материал, в котором описывалась технология этого процесса и устройство хранения данных – олигонуклеотиды Неймана (MNeimON).

В 2012 году генетикам из Гарвардского университета удалось закодировать черновик книги из 53,4 тысяч слов, 11 изображений и одну программу. Они выяснили, что в каждом кубическом миллиметре ДНК можно сохранить 5,5 петабайт данных. Год спустя исследователям Европейского института биоинформатики удалось [5] сохранить, а затем полностью извлечь и воспроизвести около 0,6 мегабайт текстовых и видео-файлов: 154 сонета Шекспира, фрагмент знаменитого выступления Мартина Лютера Кинга «У меня есть мечта» длиной 26 секунд, научная работа о структуре ДНК Джеймса Уотсона и Фрэнсиса Крика, фотографии штаб-квартиры EBI [6] в Хинкстоне и файл, описывающий методы преобразования данных. Все файлы ДНК воспроизводила с точностью, варьирующейся между 99,99% и 100%.

Янив Эрлих (Yaniv Erlich) и его коллега Дина Зелински (Dina Zielinski), научный сотрудник NYGC выбрали шесть файлов для кодирования и записи в ДНК – компьютерную операционную систему KolibriOS, французский фильм 1985 года «Прибытие поезда на вокзал Ла-Сьота», код 50-долларовой подарочной карты Amazon, компьютерный вирус, изображения с пластинок «Пионера» [7] и исследование Клода Шеннона в области теории информации 1948 года.

Ученые собрали эти файлы в один, а затем поделили данные на короткие строки двоичного кода. С помощью фонтанных кодов [8], они случайным образом упаковали строки в «капли» фонтана – блоки и конвертировали сочетания 00, 01, 10, 11 в четыре нуклеотидных основания: аденин (А), цитозин (С), гуанин (G) и тимин (Т). Чтобы затем собрать эти блоки воедино, команда ученых добавила метки для каждой «капли».

Всего исследователи сгенерировали около 72 тысяч таких цепочек ДНК, каждая из которых содержала в себе приблизительно 200 оснований. Они собрали эту информацию в текстовый файл и отправили его в Сан-Франциско, где стартап Twist Bioscience, занимающийся синтезом ДНК, превратил цифровые данные в биологические. Две недели спустя команда Эрлиха получила пробирку с молекулами ДНК.

Используя технологии секвенирования для чтения нитей ДНК и специальное ПО для перевода генетического кода обратно в двоичный файл, они успешно восстановили файлы. Сколько занимает чтение и запись, ученые пока не уточняют.

Группа исследователей, возглавляемая Эрлихом, также продемонстрировала, что ее алгоритм, умножая образец ДНК с помощью полимеразной цепной реакции, может сгенерировать и безошибочно восстановить практически неограниченное количество копий образца, и даже копий его копий.

Эрлих запускает операционную систему на виртуальной машине и играет в «Сапера»

Однако самым впечатляющими возможностями алгоритма оказалась способность разместить 215 петабайт данных в одном грамме ДНК – в 100 раз больше, чем удалось достигнуть при помощи других методов и алгоритмов.

Емкость хранения данных ДНК теоретически ограничена двумя цифрами для каждого нуклеотида, а также биологическим устройством ДНК. Кроме того, чтобы собрать и прочитать записанные фрагменты, требуется включить дополнительную информацию, что впоследствии снижает емкость до 1,8 двоичных символов в нуклеотиде. Алгоритм «фонтан ДНК» позволяет разместить в среднем 1,6 бит в каждом нуклеотиде – это на 60% больше, чем удавалось ранее, а также близко к пределу в 1,8 бит.

Главным препятствием на пути широкого распространения технологии остается ее стоимость. Исследователи потратили 7 тысяч долларов, чтобы синтезировать ДНК и заархивировать 2 мегабайта данных, и еще 2 тысячи, чтобы расшифровать ее. И хотя стоимость секвенирования ДНК постепенно снижается, то ее синтез все еще обходится в круглую сумму. Инвесторы не готовы вкладывать тонны денег только ради того, чтобы синтез упал в цене.

Эрлих и его команда предлагают другой способ решения проблемы: снизить цену на синтез ДНК можно, если производить молекулы более низкого качества, а затем использовать стратегию кодирования по типу «фонтана ДНК», чтобы исправить молекулярные ошибки.

Научная работа опубликована в журнале Science 3 марта 2017 года
DOI: 10.1126/science.aaj2038

Автор: krasandm

Источник [9]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/hranilishhe-danny-h/248032

Ссылки в тексте:

[1] восстановление: http://dx.doi.org/10.1038/nature17405

[2] Колумбийского университета: https://ru.wikipedia.org/wiki/%D0%9A%D0%BE%D0%BB%D1%83%D0%BC%D0%B1%D0%B8%D0%B9%D1%81%D0%BA%D0%B8%D0%B9_%D1%83%D0%BD%D0%B8%D0%B2%D0%B5%D1%80%D1%81%D0%B8%D1%82%D0%B5%D1%82

[3] NYGC: https://en.wikipedia.org/wiki/New_York_Genome_Center

[4] Михаилу Нейману: https://ru.wikipedia.org/wiki/%D0%9D%D0%B5%D0%B9%D0%BC%D0%B0%D0%BD,_%D0%9C%D0%B8%D1%85%D0%B0%D0%B8%D0%BB_%D0%A1%D0%B0%D0%BC%D0%BE%D0%B9%D0%BB%D0%BE%D0%B2%D0%B8%D1%87

[5] удалось: http://www.nature.com/news/synthetic-double-helix-faithfully-stores-shakespeare-s-sonnets-1.12279

[6] EBI: https://en.wikipedia.org/wiki/European_Bioinformatics_Institute

[7] пластинок «Пионера»: https://ru.wikipedia.org/wiki/%D0%9F%D0%BB%D0%B0%D1%81%D1%82%D0%B8%D0%BD%D0%BA%D0%B8_%C2%AB%D0%9F%D0%B8%D0%BE%D0%BD%D0%B5%D1%80%D0%B0%C2%BB

[8] фонтанных кодов: https://habrahabr.ru/company/wunderfund/blog/302638/

[9] Источник: https://geektimes.ru/post/286586/