Рубрика «AVX2»

В Go 1.27 завезли SIMD

2026-07-25 в 16:31, admin, рубрики: 1.27, AVX-512, AVX2, Go, go 1.27, go1.27, neon, simd, sse

Дядя Хашимото сказал разобраться, я попытался. Речь про его эссе «Everyone Should Know SIMD»: SIMD должен знать каждый разработчик; примеры там на Zig, но суть от языка не зависит. Мой язык - Go, и в февральском обзоре Go 1.26 я написал про новый SIMD-пакет грустную строчку: «поддержка ARM64 планируется в будущих версиях».

Будущее пришло быстрее, чем я ждал: в go1.27rc2 пакет simdЧитать полностью »

И снова самый быстрый парсер JSON. Очередной

2026-06-29 в 15:05, admin, рубрики: AVX2, Go, golang, highload, json, simd, unsafe, zero-allocation, zero-copy, парсинг

За свои 17+ лет в активной разработке я встречал много проблем, но одна преследовала меня постоянно: JSON. Нет, с самим форматом все ок, но вот с его чтением — не все норм.

Когда я только начинал работать с PHP, я списывал это на скриптовость языка. Отчасти из‑за этого я даже поменял стек. Но когда приходили по‑настоящему большие файлы, это всегда было больно. Иногда — очень. Был проект, где мы ждали не обработку информации бизнес‑логикой, а банального парсинга. Файлы доходили до десятков гигабайт и не всегда влезали в оперативку. Тогда я и заработал себе персональный todo — разобраться с этим раз и навсегда.

Читать полностью »

SIMD на x86 — чудовище Франкенштейна?

2025-05-28 в 11:21, admin, рубрики: avx, AVX2, mmx, simd, x86

Набор инструкций	Год	Регистры	Типы операций	Макс. элементов	Число команд	Статус
MMX	1997	8×64-бит	Целочисленные	8×8-бит или 2×32-бит	57	устарел
3DNow!	1998	8×64-бит	FP32	2×32-бит	21	удалён
SSE	1999	8/16×128-бит	FP32	4×32-бит	Читать полностью »

Как оптимизировать код на С для x86-процессоров: подсистема кэша и памяти, инструкции AVX-512

2023-12-12 в 11:03, admin, рубрики: AVX-512, AVX2, dsp, icelake

Меня зовут Андрей Бакшаев, я ведущий инженер-программист в YADRO. Моя команда занимается разработкой и оптимизацией математических библиотек под архитектуру x86. До этого я 15 лет работал в Intel. Значительная часть моих задач заключалась в том, чтобы реализовывать некоторые алгоритмы обработки изображений и сигналов в довольно известной математической библиотеке IPP, максимально эффективно используя возможности процессоров. Я также исследовал производительность этих алгоритмов в процессорах на ранней стадии проектирования.

Читать полностью »

Обзор инструкций ARM NEON для тех, кто знаком с MMX-SSE-AVX

2021-03-31 в 7:16, admin, рубрики: avx, AVX2, neon, sse, x86, высокая производительность, обработка изображений

Мир изменился. Я чувствую это в воде, чувствую это в земле, ощущаю в воздухе.

«Властелин колец», Джон Рональд Руэл Толкин

Читать полностью »

XXH3: новый рекордсмен по скорости хеширования

2019-03-18 в 7:06, admin, рубрики: AVX2, cityhash, FarmHash, mum-hash, neon, sse2, t1ha, XXH3, xxHash, Алгоритмы, Блог компании GlobalSign, информационная безопасность, криптография, хеширование

XXH3: новый рекордсмен по скорости хеширования - 1
Бенчмарки сделаны в программе SMHasher на Core 2 Duo 3,0 ГГц

На Хабре неоднократно рассказывали про некриптографические хеш-функции, которые на порядок быстрее криптографических. Они применяются там, где важна скорость и нет смысла применять медленные MD5 или SHA1. Например, для построения хеш-таблиц с хранением пар ключ-значение или для быстрой проверки контрольной суммы при передаче больших файлов.

Одно из самых популярных — семейство хеш-функций xxHash, которое появилось около пяти лет назад. Хотя изначально эти хеши задумывались для проверки контрольной суммы при сжатии LZ4, но их стали применять на самых разных задачах. Оно и понятно: достаточно посмотреть на таблицу вверху со сравнением производительности xxHash и некоторых других хеш-функций. В этом тесте xxHash обходит ближайшего конкурента по производительности в два раза. Новая версия XXH3 поднимает планку ещё выше.
Читать полностью »

Разновидности SIMD

2019-02-24 в 17:05, admin, рубрики: avx, AVX2, meshoptimizer, simd, sse, параллельное программирование, Проектирование и рефакторинг, Работа с векторной графикой

Разновидности SIMD - 1 Во время разработки meshoptimizer частенько возникает вопрос: «А может этому алгоритму использовать SIMD?»

Библиотека ориентирована на производительность, но SIMD не всегда обеспечивает значительные преимущества по скорости. К сожалению, SIMD может сделать код менее переносимым и менее ремонтопригодным. Поэтому в каждом конкретном случае приходится искать компромисс. Когда первостепенное значение имеет производительность, приходится разрабатывать и поддерживать отдельные реализации SIMD для наборов инструкций SSE и NEON. В других случаях нужно понять, каков эффект от применения SIMD. Сегодня мы попытаемся ускорить меш-рационализатор (sloppy mesh simplifier) — новый алгоритм, недавно добавленный в библиотеку — используя наборы инструкций SSEn/AVXn.
Читать полностью »

Ускоряем неускоряемое или знакомимся с SIMD, часть 2 — AVX

2019-02-18 в 15:21, admin, рубрики: avx, AVX2, C, c++, simd, sse, высокая производительность, Процессоры

Предыдущая часть вызвала бурную дискуссию, в ходе которой выяснилось, что AVX/AVX2 на самом деле есть в десктопных CPU, нет только AVX512. Поэтому продолжаем знакомиться с SIMD, но уже с современной его частью — AVX. А так же разберём некоторые комментарии:

медленнее ли _mm256_load_si256, чем прямое обращение к памяти?
влияет ли на скорость использование AVX команд над SSE регистрами?
действительно ли так плохо использовать _popcnt?Читать полностью »

Как я сделал самый быстрый ресайз изображений. Часть 3, числа с фиксированной точкой

2017-08-03 в 11:28, admin, рубрики: avx, AVX2, C, pillow, pillow-simd, python, sse, SSE4, высокая производительность, обработка изображений, оптимизация, производительность, ресайз

Я продолжаю подробно рассказывать о приемах оптимизации, позволивших мне написать самый быстрый ресайз изображений на современных x86 процессорах. На этот раз речь пойдет о преобразовании вычислений с плавающей точкой в вычисления с целыми числами. Сперва я расскажу немного теории, как это работает. Затем вернусь к реальному коду, в том числе SIMD-версии.

В предыдущих частях:

→ Часть 0
→ Часть 1, общие оптимизации
→ Часть 2, SIMD

Читать полностью »

Как я сделал самый быстрый ресайз изображений. Часть 2, SIMD

2017-04-19 в 16:13, admin, рубрики: avx, AVX2, C, pillow, pillow-simd, python, sse, SSE4, высокая производительность, обработка изображений, оптимизация, производительность, ресайз

Это продолжение цикла статей о том, как я занимался оптимизацией и получил самый быстрый ресайз на современных x86 процессорах. В каждой статье я рассказываю часть истории, и надеюсь подтолкнуть еще кого-то заняться оптимизацией своего или чужого кода. В предыдущих сериях:

→ Часть 0
→ Часть 1, общие оптимизации

В прошлый раз мы получили ускорение в среднем в 2,5 раза без изменения подхода. В этот раз я покажу, как применять SIMD-подход и получить ускорение еще в 3,5 раза. Конечно, применение SIMD для обработки графики не является ноу-хау, можно даже сказать, что SIMD был придуман для этого. Но на практике очень мало разработчиков используют его даже в задачах обработки изображений. Например, довольно известные и распространенные библиотеки ImageMagick и LibGD написаны без использования SIMD. Отчасти так происходит потому, что SIMD-подход объективно сложнее и не кроссплатформенный, а отчасти потому, что по нему мало информации. Довольно просто найти азы, но мало детальных материалов и разбора реальных задач. От этого на Stack Overflow очень много вопросов буквально о каждой мелочи: как загрузить данные, как распаковать, запаковать. Видно, что всем приходится набивать шишки самостоятельно.

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «AVX2»

В Go 1.27 завезли SIMD

И снова самый быстрый парсер JSON. Очередной

SIMD на x86 — чудовище Франкенштейна?

Как оптимизировать код на С для x86-процессоров: подсистема кэша и памяти, инструкции AVX-512

Обзор инструкций ARM NEON для тех, кто знаком с MMX-SSE-AVX

XXH3: новый рекордсмен по скорости хеширования

Разновидности SIMD

Ускоряем неускоряемое или знакомимся с SIMD, часть 2 — AVX

Как я сделал самый быстрый ресайз изображений. Часть 3, числа с фиксированной точкой

Как я сделал самый быстрый ресайз изображений. Часть 2, SIMD