- PVSM.RU - https://www.pvsm.ru -
12 июля компания Intel представила новую линейку серверных процессоров под кодовым названием Skylake-SP. Буквы SP в названии линейки — это сокращение от Scalable Processors («масштабируемые процессоры» в переводе на русский). Такое название не случайно: Intel реализовали много интересных нововведений и, как было отмечено в одном обзоре [1], «попытались угодить чуть ли не всем».
Процессоры линейки SP являются частью серверной платформы Purley, которую называют «платформой десятилетия [2]».
Серверы на базе новых процессоров уже доступны для заказа в наших дата-центрах [3].
Какие нововведения реализованы в Intel Skylake-SP? Каковы технические характеристики этих процессоров? В чём заключаются их преимущества по сравнению с предыдущими моделями? Обо всём этом мы подробно расскажем в этой статье.
Предыдущие линейки процессоров Xeon получали имена вида Exvx: E3v3, E3v5 и т.п. В линейке SP используется другая схема именования: все процессоры делятся на четыре серии под кодовыми названиями Bronze, Silver, Gold и Platinum. Все эти серии отличаются между собой числом ядер и набором технологий.
Bronze — это самые простые процессоры: они могут иметь до 8 ядер и не поддерживают hyper-threading. Platinum, как и следует из названия, рассчитаны на работу под высокими нагрузками и обладают наибольшим (до 28) числом ядер.
В именах некоторых моделей появились новые индексы. Так, литера F указывает на наличие встроенного контроллера Omni-Path [4], M — на поддержку большего объёма памяти (до 1,5 ТБ на сокет), а T — на поддержку стандарта NEBS (Network Equipment Building System) [5]. Процессоры с индексом T в имени выдерживают большие температурные нагрузки, и срок службы по сравнению с другими моделями у них гораздо больше.
Для наших конфигураций мы выбрали Intel Xeon Silver 4114 и Intel Xeon Gold 6140. Их основные технические характеристики представлены в таблице ниже.
Характеристика | Intel Xeon Silver 4114 | Intel Xeon Gold 6140 |
---|---|---|
Технологический процесс | 14 нм | 14 нм |
Количество ядер | 10 | 18 |
Количество потоков | 20 | 36 |
Базовая частота | 2,20 ГГц | 2,30 ГГц |
Максимальная частота Turbo | 3,00 ГГц | 3,70 ГГц |
Кэш L3 | 13,75 МБ | 24,75 МБ |
Количество линий UPI | 2 | 3 |
TDP (thermal design power) | 85 Вт | 140 Вт |
Приведём список наиболее значительныx нововведений, реализованных в процессорах Skylake-SP:
Базовая структура ядра у процессоров линейки SP осталась точно такой же, как и у Skylake предыдущих моделей. Тем не менее, некоторые отличия и усовершенствования есть. Увеличился объём L2-кэша: он составляет 1 МБ. Объём L3-кэша составляет 13,75 МБ на ядро. L2-кэш заполняется напрямую из оперативной памяти, а затем неиспользуемые линии вытесняются в L3. Данные, общие для нескольких ядер, хранятся в L3.
Обратим внимание на ещё один момент: объём L3-кэша не зависит от числа ядер. Кэшем на 24,75 МБ оснащены как восьмиядерные, так и двенадцати- и даже восемнадцатиядерные (см. таблицу выше) модели.
Как отмечено во многих обзорах (см., например, здесь [1]), упор сделан именно на работу с L2-кэшем. Встраиваемая память eDRAM в процессорах Skylake вообще отсутствует.
Важным нововведением в процессорах Intel Skylake-SP является отказ от внутрипроцессорной кольцевой шины, которая использовалась для связи между ядрами на протяжении почти 10 лет.
Впервые кольцевая шина появилась в 2009 году в восьмиядерных процессорах Nehalem-EX [6]. Она работала очень быстро (до 3 ГГц). Задержки L3-кэша были минимальными. Если ядро находило данные в своём фрагменте кэша, требовался только один дополнительный цикл. Для получения кэш-линии из другого фрагмента требовалось до 12 циклов (6 циклов в среднем).
Впоследствии технология кольцевой шины претерпела множество изменений и усовершенствований. Так, в процессорах Ivy Bridge, представленных в 2012 году, три ряда ядер были объединены двумя кольцевыми шинами. Они перемещали данные в двух направлениях (по часовой стрелке и против часовой стрелки), что позволяло обеспечить их доставку по кратчайшему маршруту и снизить время задержки. После поступления данных в кольцевую структуру требовалось скоординировать их маршрут во избежание смешение с предыдущими данными.
В процессорах Intel Xeon E5v3 [7] (2014 год) всё стало куда более сложным: четыре ряда ядер, две независимые друг от друга кольцевые шины, буферный переключатель (подробнее об этом см. в статье по только что приведённой ссылке).
Технология кольцевой шины получила распространение, когда у процессоров было максимум 8 ядер. А когда ядер стало больше 20, стало ясно: предел её возможностей близок. Конечно, можно было бы пойти самым простым путём и добавить ещё одно, третье, кольцо. Но в Intel решили пойти другим путём и перейти к новой топологии строения шин — ячеистой (mesh). Такой подход уже был опробован на процессорах Xeon Phi (более подробно об этом можно прочитать в этой статье [8].
Схематично ячеистую топологию строения шин можно представить так:
Иллюстрация Intel [9]
Благодаря новой топологии удалось значительно увеличить скорость взаимодействия между ядрами, а также повысить эффективность работы с памятью.
Повысить производительность вычислительных операций в процессорах Skylake-SP удалось благодаря использованию нового набора инструкций AVX-512. Он расширяет 32-битные и 64-битные AVX инструкции с использованием 512-битных векторов.
Программы теперь могут упаковать или 8 чисел с плавающей запятой с двойной точностью, или 16 чисел с плавающей запятой с единичной точностью, или 8 64-битных целых чисел, или 16 32-битных целых чисел внутри 512-битного вектора. Это позволяет увеличить количество обрабатываемых элементов данных за одну инструкцию в два раза по сравнению с Intel AVX/AVX2 и в четыре раза — по сравнению с Intel SSE.
AVX-512 полностью совместим с набором инструкций AVX. Это, в частности, означает, что оба набора инструкций можно использовать в одной программе без ущерба производительности (такая проблема наблюдалась при совместном использовании SSE и AVX). Регистры AVX (YMM0—YMM15) ссылаются на младшие части регистров AVX-512 (ZMM0—ZMM15) по аналогии с SSE и AVX регистрами. Поэтому в процессорах с поддержкой AVX-512 инструкции AVX и AVX2 выполняются на младших 128 или 256 битах первых 16 регистров ZMM.
Описание возможностей новых процессоров было бы неполным без результатов тестов производительности. Мы провели такие тесты и сравнили два сервера: на базе процессора Intel Xeon 8170 Platinum [10] и на базе процессора Intel Xeon E5-2680v4 [11]. На обоих серверах была установлена OC Ubuntu 16.04.
Начнём с тестов из популярного пакета sysbench.
Первый бенчмарк, который мы провели — это тест по поиску простых чисел.
На обоих серверах мы установили sysbench и выполнили команду:
sysbench --test=cpu --cpu-max-prime=200000 --num-thread=1 run
В ходе выполнения теста мы увеличивали количество потоков (параметр --num-threads) с 1 до 100.
Результат теста наглядно представлен на графике (чем ниже цифра, тем лучше результат):
По мере увеличения числа потоков Intel Xeon Platinum 8170 показывает лучшие результаты.
Рассмотрим теперь результаты теста на скорость операций чтения-записи из буфера памяти (чем ниже цифра, тем лучше результат):
Здесь мы наблюдаем аналогичную картину: c увеличением количества потоков Intel Xeon 8170 Platinum выходит в лидеры.
Тест threads проверяет работу с большим количеством конкурирующих потоков. В ходе наших экспериментов мы увеличивали количество потоков с 1 до 120.
Результаты этого теста представлены ниже (чем меньше цифры, тем лучше результат):
Как видно из графика, по мере увеличения количества потоков у результаты у Intel Xeon Skylake-SP Platinum выше.
Следующий тест, который мы провели — это Linpack [12]. Этот тест используется для измерения производительности вычислений с плавающей точкой и де-факто является стандартом в области тестирования вычислительных систем. Именно по его результатам составляется список самых производительных систем в мире [13].
Смысл теста заключается в решении плотной системы линейных алгебраических уравнений (СЛАУ) методом LU-декомпозиции [14]. Производительность измеряется в флопсах — это сокращение от floating point per second, то есть число операций с плавающей точкой в секунду. Об алгоритме, лежащем в основе Linpack, можно подробнее прочитать здесь [15].
Тест-бенчмарк Linpack можно скачать с сайта Intel [16]. В ходе теста программа решает 15 систем уравнений с матрицей разной размерности (от 1000 до 45000). Результаты проведённого нами теста наглядно представлены на графике (чем выше цифра, тем лучше результат):
Как видим, новый процессор показывает гораздо более высокие результаты. В тесте с максимальным размером матрицы (45 000) производительность Intel Xeon E5-2680v4 составляет 948.9728 ГФлопс, а Intel Xeon Platinum — 1233.2960 Гфлопс.
Для оценки производительности процессоров очень желательно проводить не только бенчмарки, но и тесты, максимально приближенные к реальной практике. Поэтому мы решили посмотреть, с какой скоростью наши серверы соберут из исходного кода набор библиотек С++ Boost [17].
Мы использовали последнюю стабильную версию Boost — 1.64.0; архив с иcходным кодом мы скачали с официального сайта [18].
На сервере с процессором Intel Xeon E5-2680v4 сборка заняла 12 минут 25 секунд. Cервер на базе Intel Xeon Platinum справился с задачей ещё быстрее — за 9 минут 16 секунд.
В этой статье мы проделали обзор важнейших нововведений, которые появились в процессорах Intel Skylake-SP. Для желающих узнать больше приводим подборку полезных ссылок по теме:
Серверы на базе новых процессоров уже доступны для заказа в дата-центрах Петербурга и Москвы.
Мы предлагаем следующие конфигурации:
Процессор | Память | Диски |
---|---|---|
Intel Xeon Silver 4114 | 96 ГБ DDR4 | 2 × 480 ГБ SSD + 2 × 4 ТБ SATA |
Intel Xeon Silver 4114 | 192 ГБ DDR4 | 2 × 480 ГБ SSD |
Intel Xeon Silver 4114 | 384 ГБ DDR4 | 2 × 480 ГБ SSD |
Intel Xeon Gold 6140 2.1 | 384 ГБ DDR4 | 2 × 800 ГБ SSD |
Чтобы арендовать серверы на базе новых процессоров, нужно оформить предварительный заказ, но в скором времени они будут доступны и на постоянной основе.
Автор: Селектел
Источник [22]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/selectel/261888
Ссылки в тексте:
[1] одном обзоре: https://servernews.ru/955164
[2] платформой десятилетия: https://newsroom.intel.com/editorials/re-architecting-data-center-intel-xeon-processor-scalable-family/
[3] уже доступны для заказа в наших дата-центрах: https://selectel.ru/promo/intel-skylake/
[4] Omni-Path: https://www.intel.ru/content/www/ru/ru/high-performance-computing-fabrics/omni-path-architecture-fabric-overview.html
[5] NEBS (Network Equipment Building System): https://en.wikipedia.org/wiki/Network_Equipment-Building_System
[6] Nehalem-EX: http://semiaccurate.com/2009/08/25/intel-details-becton-8-cores-and-all/
[7] Intel Xeon E5v3: https://blog.selectel.ru/vydelennye-servery-na-baze-processorov-intel-xeon-e5v3/
[8] в этой статье: http://www.anandtech.com/show/11550/the-intel-skylakex-review-core-i9-7900x-i7-7820x-and-i7-7800x-tested/5
[9] Intel: https://itpeernetwork.intel.com/intel-mesh-architecture-data-center/
[10] Intel Xeon 8170 Platinum: https://ark.intel.com/products/120506/Intel-Xeon-Platinum-8170-Processor-35_75M-Cache-2_10-GHz
[11] Intel Xeon E5-2680v4: https://ark.intel.com/ru/products/91754/Intel-Xeon-Processor-E5-2680-v4-35M-Cache-2_40-GHz
[12] Linpack: https://en.wikipedia.org/wiki/LINPACK_benchmarks
[13] список самых производительных систем в мире: https://www.top500.org/
[14] LU-декомпозиции: https://ru.wikipedia.org/wiki/LU-%D1%80%D0%B0%D0%B7%D0%BB%D0%BE%D0%B6%D0%B5%D0%BD%D0%B8%D0%B5
[15] здесь: http://www.netlib.org/benchmark/hpl/algorithm.html
[16] с сайта Intel: https://software.intel.com/en-us/articles/intel-mkl-benchmarks-suite
[17] Boost: http://www.boost.org/
[18] официального сайта: http://www.boost.org/users/download/
[19] http://www.anandtech.com/show/11544/intel-skylake-ep-vs-amd-epyc-7000-cpu-battle-of-the-decade: http://www.anandtech.com/show/11544/intel-skylake-ep-vs-amd-epyc-7000-cpu-battle-of-the-decade
[20] https://itpeernetwork.intel.com/intel-mesh-architecture-data-center: https://itpeernetwork.intel.com/intel-mesh-architecture-data-center
[21] https://software.intel.com/en-us/node/683422: https://software.intel.com/en-us/node/683422
[22] Источник: https://habrahabr.ru/post/335132/?utm_source=habrahabr&utm_medium=rss&utm_campaign=best
Нажмите здесь для печати.