Рубрика «gpu» - 3

image

image
Будем греть металлические пластины на GPU

Все знают, что Python не блещет скоростью сам по себе. На мой взгляд язык прекрасен своей читабельностью, но основная ниша его применения там, где вы большую часть времени ожидаете ввода/вывода каких-то данных. Условно, вы можете написать суперпроизводительный код на Rust или С, но 99% времени он будет просто ждать.

Тем не менее, Python прекрасен еще и как высокоуровневый синтаксический клей. В этом случае, его неторопливая интерпретируемая часть вызывает быстродействующий код, написанный на компилируемых языках программирования. Обычно для этого используются такие традиционные библиотеки как NumPy.

Но мы пойдем чуть дальше попробуем распараллелить вычисления на CUDA и задействуем странный, но работающий гибрид C++, stdpar и компилятора nvc++ от Nvidia. Ну и заодно попробуем оценить быстродействие. Возьмем две задачи: сортировку чисел и метод Якоби, которым будем рассчитывать нагрев металлической пластины.
Читать полностью »

На самом деле 2020 год был первоклассным временем для технологических инноваций, но тем не менее, в историю, скорее всего, он также войдёт как год крайнего раздражения разочарованных покупателей из-за того, что целевая аудитория долгое не могла купить желанные ей товары: графические карты, процессоры, источники питания и, наконец, готовые решения — современные консоли PlayStation 5 и Xbox Series X. Почему вообще возник такой дефицит? Все связанные с данными проблемами крупные бренды (Sony, Microsoft, NVIDIA, AMD) говорят, что «спрос превысил предложение». Да неужели?

Почему CPU, GPU, чипы для консолей и другие компоненты становятся дефицитом - 1

Это довольно уклончивое объяснение, никак не связанное с истинным состоянием предложения и производственных линий брендов. Каждая компания, вне зависимости от размера, имеет в штате опытных специалистов, выполняющих долговременное планирование производства и снабжения; они создают так называемый прогноз, который является просто сложным предсказанием, учитывающим все факторы. Разумеется, компания вполне может что-то упустить, и примером тому была AMD с её Vega: оказалось, что специалисты забыли заранее запланировать выделение достаточного количества ресурсов на упаковку. Но очень маловероятно, что одинаково ошибиться могли одновременно все.
Читать полностью »

Привет!

Сегодня мы затрагиваем актуальнейшую тему — Python для работы с GPU. Автор рассматривает пример, тривиальный в своей монструозности, и демонстрирует решение, сопровождая его обширными листингами. Приятного чтения!

Как GPU-вычисления буквально спасли меня на работе. Пример на Python - 1
Читать полностью »

Получение доступа к GPU из Java раскрывает огромную мощь. Здесь рассказывается как GPU работает и как получить доступ из Java.

Программирование устройства графического процессора (GPU) является заоблачным миром для Java программистов. Это понятно, так как обычные задачи для Java не подходят для GPU. Тем не менее, GPU обладают терафлопсами производительности, так давайте исследуем их возможности.
Для того чтобы сделать топик доступным, я потрачу некоторое время объясняя архитектуру GPU вместе с небольшой историей, которая облегчит погружение в программирование железа.

Однажды мне показали отличия GPU от CPU вычислений, я покажу как использовать GPU в мире Java. Наконец, я опишу главные фреймворки и библиотеки доступные для написания кода на Java и запуска их на GPU, и я приведу некоторые примеры кода.
Читать полностью »

Простая хэш-таблица для GPU - 1

Я выложил на Github новый проект A Simple GPU Hash Table.

Это простая хэш-таблица для GPU, способная обрабатывать в секунду сотни миллионов вставок. На моём ноутбуке с NVIDIA GTX 1060 код вставляет 64 миллиона случайно сгенерированных пар ключ-значение примерно за 210 мс и удаляет 32 миллиона пар примерно за 64 мс.

То есть скорость на ноутбуке составляет примерно 300 млн вставок/сек и 500 млн удалений/сек.

Таблица написана на CUDA, хотя ту же методику можно применить к HLSL или GLSL. У реализации есть несколько ограничений, обеспечивающих высокую производительность на видеокарте:

  • Обрабатываются только 32-битные ключи и такие же значения.
  • Хэш-таблица имеет фиксированный размер.
  • И этот размер должен быть равен двум в степени.

Для ключей и значений нужно зарезервировать простой разграничивающий маркер (в приведённом коде это 0xffffffff).
Читать полностью »

Продолжаем тему железа для САПР. В прошлой статье мы тестировали процессоры при работе в КОМПАС-3D, сегодня речь пойдёт о видеокартах. На связи вновь Станислав Ермохин, руководитель отдела техподдержки и обучения регионального центра АСКОН-Волга.

Тестируем видеокарты для работы с КОМПАС-3D - 1
Читать полностью »

Его система фильтрует световое загрязнение и улучшает цвета фотографий при помощи Jetson Nano

Французский фотограф-любитель совершенствует астрофотографию при помощи GPU - 1

Днём Алан Пайю руководит комиссией, отвечающей за качество воды в Бургундии, районе Франции. Когда же на небе показываются звёзды, он переходит к другим своим увлечениям.

Пайю делает чрезвычайно чёткие изображения Луны, звёзд и планет, сочетая в этом хобби свою давнюю любовь к астрономии и технологии.

В прошлом году на форуме NVIDIA он подробно описывал свою работу по проекту, названному им SkyNano – это камера, использующая одноплатный компьютер с GPU Jetson Nano, для получения подробных изображений ночного неба.
Читать полностью »

image

Перед тобой снова задача детектирования объектов. Приоритет — скорость работы при приемлемой точности. Берешь архитектуру YOLOv3 и дообучаешь. Точность(mAp75) больше 0.95. Но скорость прогона всё еще низкая. Черт.

Сегодня обойдём стороной квантизацию. А под катом рассмотрим Model Pruning — обрезание избыточных частей сети для ускорения Inference без потери точности. Наглядно — откуда, сколько и как можно вырезать. Разберем, как сделать это вручную и где можно автоматизировать. В конце — репозиторий на keras.

Читать полностью »

Итоги недели: Huawei адаптируется к санкциям, Путин подписывает нашумевшие законы, а в России блокируют ShutterStock - 1

Итоги прошедшей недели на Хабре. В этом дайджесте — самые важные, интересные и громкие события, о которых мы говорили в последние семь дней. Huawei нашла замену американских комплектующих, рынок GPU вскоре пополнят новинки, а в России, между тем, блокируют крупнейший фотобанк. Российские власти подписали ряд резонансных законов, которые серьезно отразятся на IT-сфере, а киберспортивная команда готовится провести первое в мире IPO. Читать полностью »

Самостоятельно обновляемые текстуры

Когда существует возможность распараллеливания симуляций или задач рендеринга, то обычно лучше всего выполнять их в GPU. В этой статье я объясню технику, использующую этот факт для создания впечатляющих визуальных трюков с низкими затратами производительности. Все эффекты, которые я продемонстрирую, реализованы при помощи текстур, которые при обновлении "рендерятся сами в себя"; текстура обновляется при рендеринге нового кадра, а следующее состояние текстуры полностью зависит от предыдущего состояния. На этих текстурах можно рисовать, вызывающая определённые изменения, а сама текстура прямо или косвенно может применяться для рендеринга интересных анимаций. Я называю их свёрточными текстурами.

Свёрточные текстуры - 1

Рисунок 1: двойная буферизация свёрточной текстуры

Прежде чем двигаться дальше, нам нужно решить одну проблему: текстуру нельзя считывать и записывать одновременно, такие графические API, как OpenGL и DirectX, не позволяют этого делать. Так как следующее состояние текстуры зависит от предыдущего, нам нужно как-то обойти это ограничение. Мне нужно выполнять чтение из другой текстуры, а не из той, в которой выполняется запись.

Решением является двойная буферизация. На рисунке 1 показано, как она работает: на самом деле вместо одной текстуры есть две, но в одну из них выполняется запись, а из другой производится чтение. Текстура, в которую выполняется запись, называется back buffer (вторичный буфер), а рендерящаяся текстура — front buffer (первичный буфер). Поскольку свёрточная тестура «записывается в саму себя», вторичный буфер в каждом кадре выполняет запись в первичный буфер, а затем первичный рендерится или используется для рендеринга. В следующем кадре роли меняются и предыдущий первичный буфер используется как источник для следующего первичного буфера.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js