Рубрика «CUDA» - 3

Гауссов сплэтинг: как это выглядит

2023-10-19 в 13:35, admin, рубрики: 3D Gaussian splatting, CUDA, Gaussian splatting, INRIA, NERF, SIGGRAPH, видеоускорители, гауссов сплэтинг, генеративные модели, машинное обучение, научные работы, обработка графики, обработка изображений, обучение, Общество Макса Планка, рендеринг, стохастический градиентный спуск, Университет Лазурного берега

Пример работы гауссова сплэтинга. Этот ролик — не видеосъёмка реального мира, а рендер в реальном времени на настольном компьютере

Всплеск внимания к технике сплэтинга связан с представленной в августе этого года статьей 3D Gaussian Splatting for Real-Time Radiance Field Rendering [Трёхмерный гауссов сплэтинг для рендера radiance field в реальном времени]. До этого, в июле, эта научная работа исследователей Университета Лазурного берега, Института информатики Общества Макса Планка и французского Национального института исследований в информатике и автоматике вошла в пятёрку лучших работ SIGGRAPH 2023.

В следующие два месяца новостные сайты, блоги и тематические форумы начали рекомендовать гауссов сплэтинг как будущее компьютерной графики. Новая техника позволит быстро отсканировать существующую сцену и после короткого обучения отрендерить её с высокой точностью, обещают восторженные голоса.

Сейчас исследователи бьются над поиском практического применения технологии и сканированием движения. В оригинальной работе речь идёт о воссоздании в первую очередь статичных сцен.
Читать полностью »

Запуск кода CUDA на видеокартах AMD

2022-11-25 в 16:53, admin, рубрики: CUDA, gpgpu, rocm

Многим известно, что CUDA является наиболее часто используемой платформой для ускорения массовых параллельных вычислений, применяемых в различных практических и исследовательских областях.

В 2016 году AMD представила в буквальном смысле клон платформы CUDA — ROCm. Альтернативы модулей CUDA для ROCm можно увидеть в таблице с официального сайта AMD.

Таблица соответствия модулей платформ

Модуль платформы CUDA	Модуль платформы ROCm
cuBLAS	Читать полностью »

Портирование CUDA проекта на Intel oneAPI DPC++

2022-06-25 в 15:14, admin, рубрики: CUDA, DPC++, oneapi toolkit, аттрактор, аттрактор Лоренца, Блог компании Intel, дифференциальные уравнения, математика, параллельное программирование, парраленьное програмирование, хаос

Читать полностью »

Перенос молекулярной динамики на CUDA. Часть I: Основы

2020-06-26 в 11:27, admin, рубрики: CUDA, математическое моделирование, молекулярная динамика, Научно-популярное, параллельное программирование, физика, химия, численные методы

Цель данной статьи – поднять вопросы распараллеливания кода программы для численного моделирования методом молекулярной динамики (МД) с помощью технологии CUDA. Зачем это вообще нужно, ведь уже существуют программные пакеты по МД, работающие в том числе и на CUDA? Дело в том, что я развиваю свою собственную концепцию «непостоянного поля сил» (non-constant force field), которая не реализована в существующих МД-программах.

Переделывать чужой код под эти нужды – довольно неблагодарное занятие, поэтому я взялся перенести уже написанный свой последовательный код и заодно поделится некоторыми размышлениями. Кроме того, это ответ на часто мелькающий здесь комментарий к статьям по CUDA, вроде этого .

Итак, что же такое молекулярная динамика? На Хабре уже есть несколько постов на эту тему, например здесь или вот здесь. Кратко, МД – это метод, позволяющий моделировать движение множества частиц (в том числе атомов, ионов, молекул) и рассчитывать коллективные свойства системы, зависящие от этого движения. Как это работает? Допустим для множества из N частиц заданы некоторые начальные координаты, скорости, массы и (главное!) законы взаимодействия между ними. Изменяем координаты согласно скоростям. На основе законов взаимодействия вычисляем силы, действующие между частицами. Раз знаем силу и массу – знаем ускорение. Поправляем скорость с учетом ускорения. И снова переходим к изменению координат. И так повторяем тысячи раз, пока ~~не надоест~~ не наберем достаточную статистику.

Читать полностью »

Как GPU-вычисления буквально спасли меня на работе. Пример на Python

2020-06-06 в 6:56, admin, рубрики: CUDA, gpgpu, gpu, Nvidia, python, Блог компании Издательский дом «Питер», высокая производительность, Программирование

Привет!

Сегодня мы затрагиваем актуальнейшую тему — Python для работы с GPU. Автор рассматривает пример, тривиальный в своей монструозности, и демонстрирует решение, сопровождая его обширными листингами. Приятного чтения!

Как GPU-вычисления буквально спасли меня на работе. Пример на Python - 1
Читать полностью »

Вычисления на GPU – зачем, когда и как. Плюс немного тестов

2020-04-23 в 12:00, admin, рубрики: cpu, CUDA, gpgpu, GPU вычисления, Nvidia, opencl, Алгоритмы, Блог компании Технологический Центр Дойче Банка, Видеокарты, высокая производительность, производительность, сортировка

Всем давно известно, что на видеокартах можно не только в игрушки играть, но и выполнять вещи, никак не связанные с играми, например, нейронную сеть обучить, криптовалюту помайнить или же научные расчеты выполнить. Как так получилось, можно прочитать тут, а я хотел затронуть тему того, почему GPU может быть вообще интересен рядовому программисту (не связанному с GameDev), как подступиться к разработке на GPU, не тратя на это много времени, принять решение, нужно ли вообще в эту сторону смотреть, и «прикинуть на пальцах», какой профит можно получить.

Вычисления на GPU – зачем, когда и как. Плюс немного тестов - 1

Читать полностью »

Простая хэш-таблица для GPU

2020-03-17 в 10:44, admin, рубрики: CUDA, gpu, hash table, Алгоритмы, Блог компании Mail.Ru Group, Видеокарты, высокая производительность, никто не читает теги, хранение данных

Я выложил на Github новый проект A Simple GPU Hash Table.

Это простая хэш-таблица для GPU, способная обрабатывать в секунду сотни миллионов вставок. На моём ноутбуке с NVIDIA GTX 1060 код вставляет 64 миллиона случайно сгенерированных пар ключ-значение примерно за 210 мс и удаляет 32 миллиона пар примерно за 64 мс.

То есть скорость на ноутбуке составляет примерно 300 млн вставок/сек и 500 млн удалений/сек.

Таблица написана на CUDA, хотя ту же методику можно применить к HLSL или GLSL. У реализации есть несколько ограничений, обеспечивающих высокую производительность на видеокарте:

Обрабатываются только 32-битные ключи и такие же значения.
Хэш-таблица имеет фиксированный размер.
И этот размер должен быть равен двум в степени.

Для ключей и значений нужно зарезервировать простой разграничивающий маркер (в приведённом коде это 0xffffffff).
Читать полностью »

GoLang и OpenCV (OpenVino && Cuda)

2020-02-07 в 12:18, admin, рубрики: CUDA, Go, gocv, golang, intel, Nvidia, OpenVINO, Работа с видео

Всем доброго времени суток. На хабре (~~да и вообще в интернете~~) уже не мало статей о работе с OpenCV на Go.

Готовый код — это конечно интересно, а более подробную информацию об установке драйверов приходится собирать по кусочкам — постараюсь объединить все нужные телодвижения в одну статью.

У меня имеется ноутбук с Ubuntu 18.04 на борту,

CPU: intel
GPU: Intel/Nvidia

Nvidia и Intel пытаются превзойти друг друга, а я постараюсь одновременно использовать все преимущества OpenVino и Cuda.

Сразу предупреждаю, для использования Cuda нужно минимально Compute capability (version) 5.3, посмотреть для своей видеокарты можно тут

Читать полностью »

Джедайская техника уменьшения сверточных сетей — pruning

2019-12-27 в 7:10, admin, рубрики: cnn, convolutional neural network, CUDA, deep learning, eco, gpu, keras, machine learning, neural networks, Nvidia, optimization, pruning, python, speedup, TensorFlow, tensorrt, yolo, высокая производительность, искусственный интеллект, Исследования и прогнозы в IT, машинное обучение

Перед тобой снова задача детектирования объектов. Приоритет — скорость работы при приемлемой точности. Берешь архитектуру YOLOv3 и дообучаешь. Точность(mAp75) больше 0.95. Но скорость прогона всё еще низкая. Черт.

Сегодня обойдём стороной квантизацию. А под катом рассмотрим Model Pruning — обрезание избыточных частей сети для ускорения Inference без потери точности. Наглядно — откуда, сколько и как можно вырезать. Разберем, как сделать это вручную и где можно автоматизировать. В конце — репозиторий на keras.

Читать полностью »

Посторонись, CUDA — Intel анонсировала 7-нанометровый GPU для дата-центров

2019-11-18 в 15:43, admin, рубрики: amd, api, CUDA, DevCloud, DPC++, gpgpu, intel, miran, Nvidia, oneapi, Ponte Vecchio, Sapphire Rapids, Xe, Xeon Scalable, Блог компании Дата-центр «Миран», высокая производительность, дата-центр "Миран", Производство и разработка электроники

Посторонись, CUDA — Intel анонсировала 7-нанометровый GPU для дата-центров - 1

По прогнозам аналитиков, рынок дата-центров в ближайшие годы будет расти на 38% в год и за пять лет вырастет до $35 млрд, а самая ресурсоёмкая ниша (по интенсивности вычислений) — глубокое обучение, нейросети и задачи AI.

Конечно, Intel не собирается равнодушно смотреть, как Nvidia (и AMD, в меньшей степени) со своими GPU захватывают этот рынок, включая самый быстрорастущий сектор. На прошлой неделе гигант микроэлектронной промышленности сделал сразу несколько громких анонсов:

процессоры для нейросетей Nervana NNP-T1000 и NNP-I1000 (NNP: neural network processors), а также чип Movidius VPU;
10-нанометровые процессоры Xeon Scalable (кодовое название Sapphire Rapids);
унифицированные программные интерфейсы oneAPI (для CPU, GPU, FPGA) — конкурента Nvidia CUDA;
7-нанометровый GPU для дата-центров с кодовым названием Ponte Vecchio на новой архитектуре X^e.

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «CUDA» - 3

Гауссов сплэтинг: как это выглядит

Запуск кода CUDA на видеокартах AMD

Портирование CUDA проекта на Intel oneAPI DPC++

Перенос молекулярной динамики на CUDA. Часть I: Основы

Как GPU-вычисления буквально спасли меня на работе. Пример на Python

Вычисления на GPU – зачем, когда и как. Плюс немного тестов

Простая хэш-таблица для GPU

GoLang и OpenCV (OpenVino && Cuda)

Джедайская техника уменьшения сверточных сетей — pruning

Посторонись, CUDA — Intel анонсировала 7-нанометровый GPU для дата-центров