Intel и Facebook совместно повышают производительность библиотеки Caffe2

в 6:14, , рубрики: Caffe2, Facebook, intel, Блог компании Intel, высокая производительность, параллельное программирование, Программирование

Intel и Facebook совместно повышают производительность библиотеки Caffe2 - 1

Каждый день окружающий нас мир генерирует все больше и больше информации — текстовой, графической, мультимедийной и т.д. За последние годы технологии искусственного разума и глубокого изучения сумели улучшить ряд приложений, которые помогают людям лучше воспринимать эту информацию, обогатив их возможностями распознавания речи, видео, изображений, а также функционалом рекомендаций.

За последний год Intel добавила аппаратную поддержку ЦПУ в нескольких фреймворков глубокого изучения для оптимизации приложений, делающих выводы на основе анализа. Основой этих оптимизаций является Intel Math Kernel Library (Intel MKL), использующая инструкции Intel Advanced Vector Extension (Intel AVX-512) для расширенной поддержки функционала глубокого изучения.

Caffe2 — это open source фреймворк глубокого изучения, созданный Facebook и отличающийся высокой скоростью работы и модульным исполнением. Caffe2 разработан для того, чтобы помочь исследователям тренировать большие модели машинного обучения и разрабатывать AI для мобильных устройств.

Intel и Facebook совместно интегрируют функции Intel MKL в Caffe2 для оптимальной производительности получения выводов. Таблица ниже показывает скорость получения выводов с
использованием библиотек Intel MKL и Eigen BLAS. В таблице OMP_NUM_THREADS показывает количество используемых физических ядер. Результаты показывают, что Caffe2 может быть хорошо оптимизирован с точки зрения процессора. Для небольших пакетов нагрузок рекомендуется использовать свое процессорное ядро для каждой нагрузки и запускать их параллельно.

OMP_NUM_THREADS=44 OMP_NUM_THREADS=1
Размер пакета Intel MKL
(изобр./сек)
Eigen BLAS
(изобр./сек)
Intel MKL
(изобр./сек)
Eigen BLAS
(изобр./сек)
1 173.4 5.2 28.6 5.1
32 1500.2 29.3 64.6 15.4
64 1596.3 35.3 66.0 15.5
256 1735.2 44.9 67.3 16.2

Ранее в этом году на рынок были выведено новое поколение процессоров Intel Xeon (кодовое название Skylake). Одной из новинок Skylake стали 512-битные инструкции Fused Multiply Add (FMA) как часть векторного набора Intel AVX-512, обеспечивающего существенный прирост производительности по сравнению с предыдущими 256-битными инструкциями AVX2 как для тренировки моделей, так и для подсчета выводов. 512-битные функции FMA вдвое увеличивают достигаемые процессором FLOPS и сильно ускоряют матричную арифметику одинарной точности, используемую в сверточных и рекурентных нейронных сетях. Подсчет выводов хорошо параллелизуется и получит выгоду от увеличения количества ядер в новых процессорах. Кроме того, на скорости работы благотворно скажется увеличение частоты памяти и размера кэша Mid-Level-Cache (MLC) на одно ядро.

Автор: Intel

Источник

Поделиться

* - обязательные к заполнению поля