- PVSM.RU - https://www.pvsm.ru -

Технология Dell Reliable Memory Technology PRO: обнаружение и изоляция ошибок памяти

Независимо от производителя или типа ОЗУ, почти вся компьютерная память содержит те или иные микродефекты. Изготовитель памяти может потратить от 10 до 15% стоимости модуля памяти DIMM на обширное тестирование на наличие ошибок, но память все равно может быть подвержена сбоям и отказам во время эксплуатации системы. Самые разнообразные факторы – от избыточного нагрева до «старения» и наличия в ней микродефектов — могут привести к ошибкам памяти.

Технология Dell Reliable Memory Technology PRO: обнаружение и изоляция ошибок памяти - 1

В действительности частота ошибок динамической памяти с произвольным доступом (DRAM) на порядки выше, чем сообщают отчеты. В недавнем крупномасштабном исследовании ошибок памяти DRAM в полевых условиях на основе данных, собранных в течение более двух лет, около трети всех машин и более 8% модулей DIMM фиксировали по крайней мере одну исправимую ошибку в год (DRAM errors in the wild: a large-scale field study [1]). На некоторых платформах почти в 50% систем возникали исправимые ошибки (отчет IBID), и в среднем только около 1,3% систем были подвержены непоправимым ошибкам, а для некоторых платформ этот показатель составлял 2-4%.

В стандартных офисных ПК ошибки памяти редко отрицательно влияют на результат работы стандартного прикладного программного обеспечения. Однако в системах старшего класса при интенсивных вычислениях в мире финансов, исследованиях в области добычи нефти и газа, в задачах медицинской визуализации, медиапроизводстве (рендеринге и редактировании) и пр. целостность данных является важнейшей составляющей общей архитектуры системы. В таких высокопроизводительных системах замена памяти занимает одно из первых мест в ремонте из-за отказавших компонентов, при этом ошибки памяти — одна из наиболее распространенных проблем с оборудованием, которые могут привести к сбоям системы (отчет IBID).

Технология Dell Reliable Memory Technology PRO: обнаружение и изоляция ошибок памяти - 2

Таким образом, способность обнаруживать ошибки DIMM, сообщать о них и предотвращать сбои в высокопроизводительных рабочих станциях становится необходимостью.

Учитывая высокий спрос на экстремальную производительность оперативной памяти, Dell запатентовала инновационную, эксклюзивную технологию, применяемую в рабочих станциях Dell Precision, которая помогает маркировать и выводить из работы непригодную память. Эта уникальная функция Dell помогает сократить время простоя системы, упростить работу службы поддержки ИТ и снизить общие расходы на обслуживание, увеличивая долговечность памяти и повышая продуктивность работы пользователей.

Рассмотрим основные концепции технологии надежной памяти Dell Reliable Memory Technology PRO (RMT PRO), некоторые из основных причин ошибок памяти и то, как RMT PRO помогает устранять эти ошибки.

Оперативная память

Вместе с новыми достижениями в технологиях процессоров, увеличением скорости шины и усовершенствованиями в общей архитектуре, компьютерные системы становятся более сложными, и оперативной памяти также приходится идти в ногу с этими изменениями.

Технология Dell Reliable Memory Technology PRO: обнаружение и изоляция ошибок памяти - 3

По существу (очень упрощенно), чипы DRAM представляют собой массив элементов с состояниями «включен/выключен», которые сохраняют это состояние (1 или 0) при наличии питания. Когда питание выключено, они возвращаются в нулевое состояние. Несколько чипов собрано вместе в подсистеме памяти и размещено на печатной плате — модуле DIMM (dual in-line memory module).

В большинстве рабочих станций, таких как Dell Precision, используется тип DIMM, известный как DDR4 SDRAM – синхронное динамическое запоминающее устройство с произвольной выборкой. По существу, по сравнению с более ранними версиями типов памяти (например, DDR3), DDR4 работает быстрее, имеет большую пропускную способность и более высокую плотность памяти, требует меньшего напряжения питания.

Ошибки памяти

Ошибки памяти могут быть вызваны большим количеством факторов, в результате чего один бит DRAM автоматически переходит в противоположное состояние (например, из 1 в 0, когда во время этого цикла памяти должен оставаться в 1). На ошибки могут влиять такие факторы, как перегрев, возраст памяти, дефекты и т. д. Как показали исследования, в первые 10 месяцев эксплуатации DIMM уровень ошибок резко возрастает.

Эти типы ошибок называются исправимыми ошибками: они случайным образом повреждают биты, но не оставляют физических повреждений и могут быть исправлены с помощью обновления состояния памяти.

Однако во многих случаях возникают некорректируемые ошибки. Это повторяемая ошибка бита из-за физического дефекта или другой аномалии модуля DIMM, либо когда внутри одного блока памяти случаются сразу две ошибки. Неисправимая ошибка памяти может привести к сбою системы (потребуется перезагрузка) или приложения (код Stop Error на системном уровне, дамп ядра или «синий экран смерти» — BSoD). Часто исправимые ошибки предупреждают о приближающихся неисправимых ошибках. В исследованиях около 65-80% некорректируемых ошибок в том же месяце предшествовала исправимая ошибка.

Обработка ошибок

Сегодня многие ПК класса рабочей станции включают в себя алгоритмы проверки четности памяти, которые, попросту говоря, гарантируют, что каждый раз, когда считывается байт данных, отправленные данные совпадают с полученными данными.

Технология Dell Reliable Memory Technology PRO: обнаружение и изоляция ошибок памяти - 4

Более сложные системы используют другие методы коррекции ошибок и их обнаружения. Наиболее распространенный вариант — память с исправлением ошибок (error-correcting code, ECC). Она применяется в серверах и рабочих станциях, таких как рабочие станции Dell Precision. По сути, память ECC включает в себя дополнительные биты и встроенный контроллер памяти, который проверяет четность памяти, а в случае однобитовой ошибки логика памяти ECC может исправить ошибку и вывести исправленные данные, чтобы система продолжала работать.

ECC отлично справляется с исправлением изолированных ошибок памяти и обеспечивает стабильную работу системы. Тем не менее, память ECC не дает решения при множественных ошибках в одном блоке памяти. В этих случаях произойдет порча данных. В подобной ситуации может помочь Dell Reliable Memory Technology PRO.

Преимущества технологии RMT PRO

При физическом повреждении пластины жесткого диска сбойный сектор будет помечен как непригодный для использования системой ПК. Однако в большинстве компьютеров, включая рабочие станции с памятью ECC, неисправимая ошибка или несколько исправимых ошибок в одном блоке памяти на модуле DIMM могут привести к сбою системы. Пользователь, как правило, вынужден сообщать о такой ошибке своей службе поддержки, которая, в свою очередь, должна запустить некую программу диагностики для обнаружения ошибки. Нередко однократный отказ может потребовать замены всего модуля DIMM.

Результат – увеличение простоев, снижение производительности, потеря времени ИТ-персонала, необходимость замены DIMM и возможное повреждение ключевых файлов приложений.

Технология Dell Reliable Memory Technology PRO: обнаружение и изоляция ошибок памяти - 5

На выручку приходит технология Dell Reliable Memory Technology PRO (RMT PRO).
Похожая по своей концепции на технологию исправления ошибок жесткого диска, RMT PRO обнаруживает неисправимые ошибки и многобитовые исправимые ошибки в модуле DIMM и устраняет проблему. Вместо дорогостоящих простоев, запуск диагностики, вскрытия системы и замены неисправного модуля DIMM технология RMT PRO при перезагрузке:

  • Помечает дефектную часть отдельного модуля DIMM.
  • Сообщает о дефекте и местоположении сбойного участка DIMM в BIOS.
  • Удаляет эти плохие ячейки и небольшое количество соседних ячеек из пула используемой системной памяти.

Технология Dell Reliable Memory Technology PRO: обнаружение и изоляция ошибок памяти - 6
После простой перезагрузки рабочей станции RMT PRO делает дефектную область невидимой для операционной системы. Приложения и критические системные функции будут «обходить» отмеченную область и продолжат работать без необходимости замены оборудования. Все будет так, как если бы плохая память никогда не существовала. Тем самым обеспечивается бесперебойная работа, уменьшается количество системных сбоев и ошибок приложений.

RMT PRO может сократить расходы на аппаратные средства – модули памяти. Поскольку память может ухудшаться при интенсивном использовании или чрезмерном нагревании (обычно из-за высокой нагрузки), число физических ошибок может возрастать. Несмотря на «плохую память» информация остается на DIMM. Кроме того, если требуется замена DIMM, RMT PRO будет отображать в BIOS, какие именно модули DIMM вызывают ошибки, ускоряя процесс устранения неисправностей и замену DIMM, что помогает сократить время простоя и снизить общую стоимость сервиса. Таким образом, технология RMT PRO увеличивает жизненный цикл оперативной памяти и помогает экономить средства.

Технология Dell Reliable Memory Technology PRO: обнаружение и изоляция ошибок памяти - 7

Выводы

Хотя некоторые схемы обнаружения ошибок, такие как память ECC, могут отлавливать ошибки памяти, многие из этих алгоритмов позволяют обрабатывать только исправимые ошибки. Когда возникают физические дефекты или неисправимые ошибки в DIMM, Dell RMT PRO обеспечивает дополнительный уровень обнаружения и коррекции дефектной памяти.

Путем сопоставления и удаления поврежденных секторов технология RMT PRO делает так, чтобы приложения с интенсивными вычислениями получали доступ только к пригодной для использования памяти. Это может привести к значительной экономии как времени, так и денег из-за сокращения сроков замены оборудования и модулей DIMM, уменьшения простоев техники. Когда целостность данных имеет решающее значение, технология RMT PRO дает необходимый уровень уверенности, обеспечивая доступную память для максимального увеличения производительности и надежности рабочей станции.

Автор: DellEMCTeam

Источник [2]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/zhelezo/268903

Ссылки в тексте:

[1] DRAM errors in the wild: a large-scale field study: https://www.cs.toronto.edu/~bianca/papers/sigmetrics09.pdf

[2] Источник: https://geektimes.ru/post/295687/