Чипы для ML — рассказываем о новинках

Говорим о новых архитектурах как крупных мировых производителей, так и стартапов — waferscale-чипах, тензорных процессорах и устройствах на базе графов.

^{Подборка по теме:}

Инструменты для разработчиков ПО: открытые фреймворки и библиотеки МО ^[1]

^[2]
Фото — Jason Leung ^[3] — Unsplash

Waferscale для глубокого обучения

При производстве классических процессоров кремниевую подложку делят ^[4] на индивидуальные кристаллы. Но в случае с waferscale-процессорами полупроводниковую пластину не делят — она становится большим чипом. В результате компоненты оказываются ближе друг к другу, а производительность системы возрастает.

Этот подход использовали инженеры из Cerebras Systems и TSMC, разработав чип для глубокого обучения — Cerebras WSE. Его показали ^[5] на конференции Hot Chips в конце лета. Устройство представляет ^[6] собой квадратный кристалл со сторонами в 21,5 см. Он состоит из 1,2 трлн транзисторов, объединённых в 400 тыс. ядер. Эти ядра «общаются» между собой при помощи проприетарной системы Swarm с пропускной способностью 100 Пбит/с.

Разработчики говорят, что чип предварительно оптимизирует вычисления ^[7], отфильтровывая нулевые данные в матричных операциях — они составляют от 50 до 98% всех значений. В итоге обучение модели на Cerebras происходит в сто раз быстрее, чем на классических графических процессорах. Однако в NYTimes к подобным заявлениям отнеслись ^[8] со здоровой долей скептицизма — аппаратное обеспечение пока не тестировали независимые эксперты.

Вычислительные ядра Cerebras программируемые. Их можно оптимизировать для работы с любыми нейросетями. Ожидается, что новая микросхема найдет применение в облачных системах и приложениях для машинного обучения: от беспилотников до голосовых помощников. Пока неизвестно, когда чип поступит в продажу, но ряд компаний уже тестирует его на рабочих нагрузках.

Еще один проект в сфере waferscale-устройств для МО — Silicon Interconnect Fabric (Si-IF). Его разрабатывают ^[9] в лаборатории Калифорнийского университета. Si-IF представляет собой устройство, объединяющее десятки GPU на одной кремниевой пластине. Разработчики уже представили два прототипа на 24 и на 40 графических процессоров. Их производительность в 2,5 раза превышает возможности классических устройств. Систему планируют использовать в ЦОД.

Тензорные процессоры

В мае 2018 года Google анонсировали TPU v3 — третье поколение своих тензорных процессоров для работы с библиотекой машинного обучения TensorFlow ^[10]. О технических характеристиках нового устройства известно немного ^[11]. Продакшн-версия будет изготовлена ^[12] по 12- или 16-нм техпроцессу. Тепловая расчетная мощность — 200 ватт, производительность — 105 TFLOPS при работе с bfloat 16. Это — 16-битная система представления с плавающей запятой, которую используют в глубоком обучении.

На ряде задач производительность второго поколения Google TPU превысила ^[13] возможности NVIDIA Tesla V100 в пять раз. Инженеры говорят, что третье поколение в восемь раз мощнее своего предшественника. На чипы даже пришлось установить ^[14] жидкостное охлаждение.

Чипы для ML — рассказываем о новинках - 2
Фото — Cineca ^[15] — CC BY

Корпорация планирует перевести на новые тензорные процессоры ряд своих систем: голосового помощника, сервис для обработки фотографий и алгоритм ранжирования поисковых запросов RankBrain. Также компания хочет построить на основе TPU облачные масштабируемые суперкомпьютеры и открыть к ним доступ для ученых, занимающихся исследованием систем ИИ. В конце весны сервис запустили ^[16] в бета-режиме.

Чипы, работающие со сложными графами

Британский стартап Graphcore разработал чип для задач глубокого обучения — Colossus IPU (Intelligence Processing Unit). Он содержит 1200 ядер и набор специализированных трансцендентных функций ^[17]. Каждое ядро обрабатывает шесть потоков. Железо работает в паре с программным обеспечением Poplar. Оно компилирует модели и строит на их основе сложные многоступенчатые алгоритмические графы, которые запускаются на IPU-процессорах. Испытания первых образцов Graphcore показали, что они обладают в сто раз большей производительностью, чем традиционные GPU.

Стартап уже поставляет ^[18] полноразмерную карту PCI-E для серверов. Она имеет в своем составе два IPU-чипа, выполненные по 16-нм техпроцессу и состоящие из 24 млрд транзисторов. Вычислительная мощность такого устройства составляет 125 TFLOPS. Карты рассчитаны на работу в дата-центрах IaaS-провайдеров и автомобилях с автопилотом. Основатели стартапа говорят ^[19], что с их устройствами работает более ста клиентов, однако не называют конкретные компании.

Конкуренция в сфере аппаратных устройств для машинного обучения становится все более серьезной. На рынок выходят новые игроки, предлагающие инновационные архитектуры, а именитые компании продолжают наращивать мощности существующих решений. В любом случае это играет на руку владельцам дата-центров, data science инженерам и другим специалистам, развивающим системы искусственного интеллекта.

Чипы для ML — рассказываем о новинках - 3

Партнёрская программа 1cloud.ru ^[20]. Пользователи нашего облака могут получать доход и сократить расходы на аренду виртуальной инфраструктуры.

Чипы для ML — рассказываем о новинках - 4

Например, мы предлагаем услугу «Частное облако ^[21]». С её помощью можно развернуть IT-инфраструктуру для проектов любой сложности.

Автор: 1cloud

Источник ^[22]

Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/vy-sokaya-proizvoditel-nost/333860

Ссылки в тексте:

[1] Инструменты для разработчиков ПО: открытые фреймворки и библиотеки МО: https://habr.com/ru/company/1cloud/blog/471320/

[2] Image: https://habr.com/ru/company/1cloud/blog/472230/

[3] Jason Leung: https://unsplash.com/photos/gWclE_nl4Xo

[4] делят: https://mybroadband.co.za/news/hardware/200748-how-a-computer-chip-is-created-from-sand-to-cpu.html

[5] показали: https://www.forbes.com/sites/tiriasresearch/2019/08/20/ai-start-up-cerebras-develops-the-most-powerful-processor-in-the-world/#139010f65924

[6] представляет: https://www.nextplatform.com/2019/08/21/machine-learning-chip-breaks-new-ground-with-waferscale-integration/

[7] оптимизирует вычисления: https://venturebeat.com/2019/08/19/cerebras-systems-unveils-a-record-1-2-trillion-transistor-chip-for-ai/

[8] отнеслись: https://www.nytimes.com/2019/08/19/technology/artificial-intelligence-chip-cerebras.html

[9] разрабатывают: https://hexus.net/tech/news/industry/127067-wafer-scale-computer-40-gpus-proposed/

[10] TensorFlow: https://github.com/tensorflow

[11] известно немного: https://www.extremetech.com/extreme/269008-google-announces-8x-faster-tpu-3-0-for-ai-machine-learning

[12] изготовлена: https://www.jameswhanlon.com/new-chips-for-machine-intelligence.html#google-tpu-3

[13] превысила: https://mc.ai/benchmarking-googles-new-tpuv2/

[14] пришлось установить: https://www.datacenterknowledge.com/google-alphabet/google-brings-liquid-cooling-data-centers-cool-latest-ai-chips

[15] Cineca: https://www.flickr.com/photos/cineca/25018004373/

[16] запустили: https://cloud.google.com/blog/products/ai-machine-learning/googles-scalable-supercomputers-for-machine-learning-cloud-tpu-pods-are-now-publicly-available-in-beta

[17] трансцендентных функций: https://ru.wikipedia.org/wiki/%D0%A2%D1%80%D0%B0%D0%BD%D1%81%D1%86%D0%B5%D0%BD%D0%B4%D0%B5%D0%BD%D1%82%D0%BD%D0%B0%D1%8F_%D1%84%D1%83%D0%BD%D0%BA%D1%86%D0%B8%D1%8F

[18] уже поставляет: https://www.eetimes.com/document.asp?doc_id=1334578

[19] говорят: https://www.wired.co.uk/article/graphcore-ai-intelligence-processing-unit

[20] Партнёрская программа 1cloud.ru: https://1cloud.ru/conditions/referral?utm_source=habrahabr&utm_medium=cpm&utm_campaign=chipsml&utm_content=site

[21] Частное облако: https://1cloud.ru/services/private-cloud?utm_source=habrahabr&utm_medium=cpm&utm_campaign=chipsml&utm_content=site

[22] Источник: https://habr.com/ru/post/472230/?utm_source=habrahabr&utm_medium=rss&utm_campaign=472230

Нажмите здесь для печати.