- PVSM.RU - https://www.pvsm.ru -

Intel и Facebook совместно повышают производительность библиотеки Caffe2

Intel и Facebook совместно повышают производительность библиотеки Caffe2 - 1

Каждый день окружающий нас мир генерирует все больше и больше информации — текстовой, графической, мультимедийной и т.д. За последние годы технологии искусственного разума и глубокого изучения сумели улучшить ряд приложений, которые помогают людям лучше воспринимать эту информацию, обогатив их возможностями распознавания речи, видео, изображений, а также функционалом рекомендаций.

За последний год Intel добавила аппаратную поддержку ЦПУ в нескольких фреймворков глубокого изучения для оптимизации приложений, делающих выводы на основе анализа. Основой этих оптимизаций является Intel Math Kernel Library (Intel MKL) [1], использующая инструкции Intel Advanced Vector Extension (Intel AVX-512) [2] для расширенной поддержки функционала глубокого изучения.

Caffe2 [3] — это open source фреймворк глубокого изучения, созданный Facebook и отличающийся высокой скоростью работы и модульным исполнением. Caffe2 разработан для того, чтобы помочь исследователям тренировать большие модели машинного обучения и разрабатывать AI для мобильных устройств.

Intel и Facebook совместно интегрируют функции Intel MKL в Caffe2 для оптимальной производительности получения выводов. Таблица ниже показывает скорость получения выводов с
использованием библиотек Intel MKL и Eigen BLAS. В таблице OMP_NUM_THREADS показывает количество используемых физических ядер. Результаты показывают, что Caffe2 может быть хорошо оптимизирован с точки зрения процессора. Для небольших пакетов нагрузок рекомендуется использовать свое процессорное ядро для каждой нагрузки и запускать их параллельно.

OMP_NUM_THREADS=44 OMP_NUM_THREADS=1
Размер пакета Intel MKL
(изобр./сек)
Eigen BLAS
(изобр./сек)
Intel MKL
(изобр./сек)
Eigen BLAS
(изобр./сек)
1 173.4 5.2 28.6 5.1
32 1500.2 29.3 64.6 15.4
64 1596.3 35.3 66.0 15.5
256 1735.2 44.9 67.3 16.2

Ранее в этом году на рынок были выведено новое поколение процессоров Intel Xeon (кодовое название Skylake). Одной из новинок Skylake стали 512-битные инструкции Fused Multiply Add (FMA) как часть векторного набора Intel AVX-512, обеспечивающего существенный прирост производительности по сравнению с предыдущими 256-битными инструкциями AVX2 как для тренировки моделей, так и для подсчета выводов. 512-битные функции FMA вдвое увеличивают достигаемые процессором FLOPS и сильно ускоряют матричную арифметику одинарной точности, используемую в сверточных и рекурентных нейронных сетях. Подсчет выводов хорошо параллелизуется и получит выгоду от увеличения количества ядер в новых процессорах. Кроме того, на скорости работы благотворно скажется увеличение частоты памяти и размера кэша Mid-Level-Cache (MLC) на одно ядро.

Автор: Intel

Источник [4]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/programmirovanie/256574

Ссылки в тексте:

[1] Intel Math Kernel Library (Intel MKL): https://software.intel.com/en-us/intel-mkl

[2] Intel Advanced Vector Extension (Intel AVX-512): https://software.intel.com/en-us/articles/compiling-for-the-intel-xeon-phi-processor-and-the-intel-avx-512-isa

[3] Caffe2: http://caffe2.ai/

[4] Источник: https://habrahabr.ru/post/329682/?utm_source=habrahabr&utm_medium=rss&utm_campaign=best