Переход к 3D: влияние архитектуры чипов и алгоритмов записи на срок службы SSD

в 15:48, , рубрики: wd, WD Black NVMe SSD, WD Blue 3D NAND SSD, western digital, Блог компании Western Digital, высокая производительность, Накопители, твердотельные накопители, твердотельные накопители NVMe, хранение данных, хранилища данных
Переход к 3D: влияние архитектуры чипов и алгоритмов записи на срок службы SSD - 1

Хотя с момента появления первого SATA SSD прошло уже 14 лет, многие потребители и по сей день относятся к твердотельным накопителям с изрядной долей скепсиса. Главная причина недоверия — ограниченность рабочего ресурса флэш-памяти, обусловленная постепенной деградацией полупроводниковой структуры чипов, вследствие чего устройства рано или поздно теряют способность к записи и хранению информации. Подробные технические спецификации зачастую лишь усугубляют положение дел: покупателю сложно понять, TBW 500 ТБ, указанные в описании Western Digital Blue 3D NAND SATA SSD на два терабайта — это много или мало? Сколько такой диск продержится в реальных условиях работы и можно ли ему доверить наиболее ценные файлы? Давайте попробуем разобраться в этом вопросе вместе и поговорим о том, насколько надежной является современная флэш-память.

Строго говоря, ответ на «главный вопрос жизни, вселенной и всего такого» был получен еще в декабре 2014 года, когда ребята из сетевого издания TechReport завершили испытания потребительских SSD, продлившиеся в общей сложности год. На примере продукции HyperX, Corsair, Kingston и Samsung они убедительно доказали, что реальный ресурс твердотельных накопителей превышает 1 петабайт перезаписи. Подобные объемы практически немыслимы не то что для рядового пользователя, но даже для профессиональных контентмейкеров: накопитель морально устареет гораздо раньше, чем будет исчерпан его ресурс.

Однако тут есть один существенный нюанс: четыре года назад в ходу были чипы MLC NAND, способные хранить по 2 бита информации в каждой ячейке и изготавливаемые по 25-нанометровому техпроцессу. На тот момент это был хороший компромисс между сверхнадежными SLC (single-level cell) и более вместительными и недорогими TLC (triple-level cell): чипы с двухбитовыми ячейками обеспечивали приемлемую плотность хранения данных, выдерживая вплоть до 5 000 циклов записи/стирания (в среднем этот показатель достигает 3 тысяч). Чего нельзя сказать об их ближайших собратьях: при всех преимуществах, к которым следует отнести высокую емкость и дешевизну, TLC оказались куда менее выносливы, с трудом взяв планку в 1500 тысячи циклов программирования/стирания при том, что большинство планарных микросхем едва выдерживает тысячу.

Главным виновником подобной ситуации стал переход на 15-нанометровый технологический процесс, используемый в ходе производства чипов. Чтобы понять, почему так произошло, достаточно вспомнить, как функционирует NAND-память. Кодирование битов информации происходит путем изменения заряда на плавающем затворе за счет квантового туннелирования электронов сквозь слой диэлектрика, обусловленного высокой напряженностью электрического поля.

Переход к 3D: влияние архитектуры чипов и алгоритмов записи на срок службы SSD - 2

Схема транзистора с плавающим затвором

С точки зрения физики мы имеем дело ни с чем иным, как с явлением обратимого лавинообразного пробоя. Разгоняясь в электрическом поле электроны получают достаточную кинетическую энергию для ударной ионизации молекул диэлектрика, в результате чего возникает пара элементарных частиц, несущих противоположный заряд, которые также разгоняются электрическим полем, и процесс повторяется, при этом количество носителей заряда возрастает в геометрической прогрессии (отсюда и название). Нетрудно догадаться, что подобные процессы вызывают постепенный износ диэлектрических слоев, в результате повышается вероятность утечки заряда в соседние ячейки, что, в свою очередь приводит к повреждению или даже полной утрате данных. И переход на новый техпроцесс лишь усугубляет ситуацию: уменьшение толщины диэлектрика приводит к тому, что ячейки выходят из строя значительно раньше.

Однако если бы проблема заключалась только в этом, рядовые потребители, да и корпоративные пользователи, попросту бы не заметили разницу между MLC и TLC, а в технических спецификациях к SSD мы бы видели куда более впечатляющие цифры. В реальности перед нашими глазами предстает совсем иная картина, а причиной этого является сама архитектура флэш-чипов и специфика их работы: отдельные ячейки объединяются в страницы, а страницы — в блоки, при этом запись информации возможна лишь в чистые страницы, а ее удаление осуществляется поблочно.

Что это означает на практике? Предположим, у нас есть частично заполненный блок и мы хотим записать в него новые данные. Если их объем меньше оставшегося свободного места, запись происходит мгновенно, без каких-либо дополнительных манипуляций. Если же места недостаточно, в дело вступают сложные многоэтапные алгоритмы. Рассмотрим ситуацию на приведенной ниже схеме.

Переход к 3D: влияние архитектуры чипов и алгоритмов записи на срок службы SSD - 3

Так происходит запись данных во флэш-память

Новые данные, которые мы хотим записать, занимают две страницы в блоке, однако реально свободна лишь одна: хотя старая страница (выделена желтым) была удалена пользователем ранее, по факту записанная информация никуда не делась. Чтобы расчистить место для новых данных, контроллер инициирует процедуру, известную, как «сборка мусора», удаляя ненужные данные и перераспределяя существующие. Для этого все страницы, за исключением ненужной, копируются во второй, свободный блок, тогда как первый полностью стирается. Затем актуальные страницы переносятся обратно в первый блок, удаляются из второго, и лишь после этого новые данные занимают свое законное место.

В приведенном выше примере ради записи двух страниц пришлось дважды полностью перезаписать 2 блока по шесть страниц каждый. На самом же деле процесс «Garbage Collection» будет выглядеть куда сложнее и, как следствие, количество циклов перезаписи окажется значительно больше. Реальную картину можно оценить только зная коэффициент усиления записи (Write Amplification), который показывает, во сколько раз фактическая нагрузка на флэш-память превышает расчетную. Данный показатель может быть равен единице лишь при записи информации на абсолютно чистый, только что отформатированный диск, во всех прочих случаях его значение будет варьироваться в пределах от 2 до 25. Причем даже у, с первого взгляда, идентичных накопителей он может значительно отличаться, так как зависит от модели используемого контроллера и особенностей микропрограммы. Таким образом отказоустойчивость SSD определяется отнюдь не только типом флэш-памяти, но и тем, насколько разработчикам удалось оптимизировать работу прослойки FTL (Flash Translation Layer).

Почему драматическое увеличение плотности хранения данных не сказалось на надежности памяти 3D NAND?

Итак, теперь мы знаем, как работает флэш-память и какие именно факторы определяют надежность SSD-накопителя. Пришло время разобраться в том, какие преимущества обеспечил переход с «плоских» чипов на трехмерные. В первую очередь, 3D NAND отличается от своих предшественников за счет использования «ловушки зарядов» (Charge Trap Flash) вместо ставших привычными плавающих затворов. Если в последних для хранения зарядов используется поликремний с допирующими добавками, то в CTF — изолированная область из непроводящего материала, в роли которого чаще всего выступает SiN — нитрид кремния. Такой подход позволил минимизировать вероятность утечки заряда и, как следствие, повысить стабильность ячеек.

Архитектура чипов трехмерной памяти также претерпела значительные изменения по сравнению с предшественником, так как теперь каждая ячейка имеет цилиндрическую структуру: внешний слой представляет собой управляющий затвор, а внутренний — изолятор. Так как теперь ячейки расположены друг над другом, они формируют стек, внутри которого проходит канал из поликристаллического кремния. Легко понять, что количество слоев в чипе определяет количество ячеек в стеке.

Переход к 3D: влияние архитектуры чипов и алгоритмов записи на срок службы SSD - 4

Устройство ячейки чипа 3D NAND

Такая структура позволила снизить интерференцию между ячейками и тем самым упростить алгоритм записи: поскольку отпала необходимость в проверке состояния заряда, запись в ячейку стала осуществляться в один шаг. Еще один важный нюанс: для производства 3D NAND используются обкатанные технологические процессы при том, что плотность упаковки ячеек удалось повысить в разы. Так, например, даже 48-слойные чипы (третье поколение трехмерной флэш-памяти) выпускались по 40-нанометровому техпроцессу. Это позволило не только повысить их надежность, но и удешевить производство, так как существующие производственные линии нуждались лишь в минимальной модернизации, а потребность в литографии в глубоком ультрафиолете полностью отпала.

Если же говорить конкретно о продукции Western Digital, то в современных WD Black SN750 NVMe SSD, старт продаж которых стартовал 18 января 2019 года, используется 64-слойная TLC 3D NAND BiCS (Bit Cost Scalable), выполненная по 28-нанометровому техпроцессу. Помимо увеличения плотности упаковки еще в 1.4 раза (топовая модель отныне имеет емкость 2 ТБ, что вдвое превышает объем флагмана предыдущего поколения), важной особенностью микросхем данного типа является использование U-образных строк.

Переход к 3D: влияние архитектуры чипов и алгоритмов записи на срок службы SSD - 5

Архитектура 3D NAND BiCS

Поскольку теперь переключающий транзистор и линия истока располагаются в верхней части кристалла, они практически не подвергаются высокотемпературным воздействиям, которые сами по себе способны приводить к ошибкам во время операций чтения/записи, что позволило дополнительно повысить надежность твердотельных накопителей.

Как алгоритмы записи влияют на продолжительность жизни SSD?

Выше мы уже писали о том, что какой бы выносливой и защищенной ни была сама флэш-память, ее ресурс будет расходоваться впустую, если разработчики SSD не озаботились созданием эффективных алгоритмов записи. Чтобы оптимизировать данную процедуру, используются две весьма эффективные методики: SLC-кэширование и выравнивание износа (Wear Leveling).

Суть первой заключается в том, что часть доступного массива памяти, размер которой зависит от общего объема накопителя (например, при разработке WD Blue 3D NAND SSD мы исходили из расчета 4 ГБ кэша на каждые 250 ГБ емкости) переводится в режим работы SLC, то есть, в каждую ячейку записывается лишь один бит информации, что позволяет как существенно увеличить ее производительность, так и снизить темпы износа. SLC задействуется в ходе записи и консолидации хранящихся на SSD данных, что позволяет не только увеличить скорость проводимых операций, но и снизить темпы износа ячеек. В актуальных версиях твердотельных накопителей Western Digital используется технология nCache 3.0, последняя версия которой обзавелась функцией direct-to-TLC, что позволило найти баланс между кэшированием и быстродействием: запись данных происходит в обход кэша при его переполнении или в тех случаях, когда использование SLC-буфера оказывается нецелесообразным. Это, с одной стороны, помогло разгрузить кэш, и в то же время избежать драматического падения производительности при его заполнении.

Переход к 3D: влияние архитектуры чипов и алгоритмов записи на срок службы SSD - 6

Динамика скорости записи на SSD при заполнении SLC-буфера

Что же касается технологии выравнивания износа, то она способствует тому, чтобы все имеющиеся блоки страниц задействовались как можно более равномерно. Как известно, любая операционная система использует логический механизм адресации блоков данных (LBA), тогда как сам контроллер оперирует уже физическими адресами (PBA), соотнося их с логическими. Вследствие этого не имеет никакого значения, где на самом деле расположены фрагменты файлов, за счет чего можно написать микропрограмму, которая будет следить за тем, чтобы нагрузка между ячейками распределялась равномерно.

Переход к 3D: влияние архитектуры чипов и алгоритмов записи на срок службы SSD - 7

Выравнивание износа обеспечивает равномерность нагрузки на ячейки

В общем случае ее алгоритм выглядит следующим образом. Вы купили новенький SSD и пока на нем есть свободное место, информация будет записываться в свободные блоки. По мере эксплуатации вы начинаете удалять ненужные файлы, и механизм сборки мусора осуществляет их очистку в фоновом режиме, однако для записи они будут использоваться лишь после того, как на диске не останется ни одного блока, в который хотя бы раз не были бы записаны данные. Конечно же, в реальности все намного сложнее, но смысл не меняется.

И здесь следует сделать еще одно важное примечание, касающееся продукции Western Digital. Когда мы приняли решение осваивать рынок SSD, то могли пойти двумя путями: закупать память и контроллеры у сторонних производителей, сосредоточившись лишь на разработке и оптимизации микропрограмм, либо наладить производство полного цикла. Запускать подобный проект с нуля было бы нецелесообразным, и даже покупка SanDisk влетела нам в копеечку. Но вложенные средства отбились сполна: контролируя производство чипов, мы получили возможность адаптировать микропрограммы под особенности микросхем.

Следует понимать, что запись битов информации в ячейки флэш-памяти — гораздо более сложный процесс, чем может показаться с первого взгляда: в нем учитываются сотни разнообразных параметров, важнейшими из которых являются напряжение, необходимое для переноса заряда, и время записи. По мере износа чипов меняются и их физические характеристики: для успешной записи данных требуется уже меньшее напряжение, вместе с тем сокращается и необходимое время его воздействия на ячейку. В большинстве твердотельных накопителей эти параметры постоянны, но в SSD Western Digital они, напротив, динамически изменяются по мере износа ячеек, что позволяет максимально продлить срок службы каждой из них, минимизируя негативное воздействие на полупроводниковые структуры.

QLC 3D NAND — флэш-память последнего поколения

Если вы следите за новостями из мира высоких технологий, то наверняка в курсе, что Western Digital активно осваивает производство трехмерной памяти следующего поколения — QLC 3D NAND (первый анонс состоялся еще в июне 2018 года). Аббревиатура QLC расшифровывается, как quad-level cell. Иными словами, в одной ячейке могут храниться 16 уровней заряда, кодирующих уже не три, а четыре бита информации. По сравнению с TLC 3D NAND, плотность записи в QLC увеличилась на 33%: таким образом, емкость одного 64-слойного чипа возросла до 768 Гбит. Но и это не предел: в августе 2018 года мы начали выпуск 96-слойных микросхем. За счет увеличения количества слоев нам удалось получить 50-процентный прирост емкости и преодолеть барьер в 1 Тбит: новые чипы, получившие название 3D NAND BiCS4 способны вмещать 1.33 Тбит информации, что составляет около 166 ГБ. Добиться столь высокой плотности хранения данных удалось путем объединения двух 48-слойных кристаллов (на сегодняшний день именно такой подход является наиболее экономически оправданным).

Переход к 3D: влияние архитектуры чипов и алгоритмов записи на срок службы SSD - 8

Объединение двух 48-слойных чипов в один 96-слойный

Возросшая емкость потенциально способна снизить производительность SSD, однако на этот счет переживать не стоит: в новой флэш-памяти 3D NAND BiCS4 вместо двух физических массивов используется четыре, что позволяет оптимизировать чтение и запись данных за счет распараллеливания операций, а это, в свою очередь, поможет более эффективно использовать кэш и контролировать уровень износа ячеек, сохранив рабочий ресурс QLC-чипов на уровне, сопоставимом с современными TLC-решениями. Впрочем, описание технологий, лежащих в основе QLC, выходит за рамки данного материала и, безусловно, заслуживает отдельной статьи.

Автор: WesternDigital

Источник


* - обязательные к заполнению поля