Intel и Facebook совместно повышают производительность библиотеки Caffe2

Каждый день окружающий нас мир генерирует все больше и больше информации — текстовой, графической, мультимедийной и т.д. За последние годы технологии искусственного разума и глубокого изучения сумели улучшить ряд приложений, которые помогают людям лучше воспринимать эту информацию, обогатив их возможностями распознавания речи, видео, изображений, а также функционалом рекомендаций.

За последний год Intel добавила аппаратную поддержку ЦПУ в нескольких фреймворков глубокого изучения для оптимизации приложений, делающих выводы на основе анализа. Основой этих оптимизаций является Intel Math Kernel Library (Intel MKL) ^[1], использующая инструкции Intel Advanced Vector Extension (Intel AVX-512) ^[2] для расширенной поддержки функционала глубокого изучения.

Caffe2 ^[3] — это open source фреймворк глубокого изучения, созданный Facebook и отличающийся высокой скоростью работы и модульным исполнением. Caffe2 разработан для того, чтобы помочь исследователям тренировать большие модели машинного обучения и разрабатывать AI для мобильных устройств.

Intel и Facebook совместно интегрируют функции Intel MKL в Caffe2 для оптимальной производительности получения выводов. Таблица ниже показывает скорость получения выводов с
использованием библиотек Intel MKL и Eigen BLAS. В таблице OMP_NUM_THREADS показывает количество используемых физических ядер. Результаты показывают, что Caffe2 может быть хорошо оптимизирован с точки зрения процессора. Для небольших пакетов нагрузок рекомендуется использовать свое процессорное ядро для каждой нагрузки и запускать их параллельно.

	OMP_NUM_THREADS=44		OMP_NUM_THREADS=1
Размер пакета	Intel MKL (изобр./сек)	Eigen BLAS (изобр./сек)	Intel MKL (изобр./сек)	Eigen BLAS (изобр./сек)
1	173.4	5.2	28.6	5.1
32	1500.2	29.3	64.6	15.4
64	1596.3	35.3	66.0	15.5
256	1735.2	44.9	67.3	16.2

Ранее в этом году на рынок были выведено новое поколение процессоров Intel Xeon (кодовое название Skylake). Одной из новинок Skylake стали 512-битные инструкции Fused Multiply Add (FMA) как часть векторного набора Intel AVX-512, обеспечивающего существенный прирост производительности по сравнению с предыдущими 256-битными инструкциями AVX2 как для тренировки моделей, так и для подсчета выводов. 512-битные функции FMA вдвое увеличивают достигаемые процессором FLOPS и сильно ускоряют матричную арифметику одинарной точности, используемую в сверточных и рекурентных нейронных сетях. Подсчет выводов хорошо параллелизуется и получит выгоду от увеличения количества ядер в новых процессорах. Кроме того, на скорости работы благотворно скажется увеличение частоты памяти и размера кэша Mid-Level-Cache (MLC) на одно ядро.

Автор: Intel

Источник ^[4]

Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/programmirovanie/256574

Ссылки в тексте:

[1] Intel Math Kernel Library (Intel MKL): https://software.intel.com/en-us/intel-mkl

[2] Intel Advanced Vector Extension (Intel AVX-512): https://software.intel.com/en-us/articles/compiling-for-the-intel-xeon-phi-processor-and-the-intel-avx-512-isa

[3] Caffe2: http://caffe2.ai/

[4] Источник: https://habrahabr.ru/post/329682/?utm_source=habrahabr&utm_medium=rss&utm_campaign=best

Нажмите здесь для печати.