Рубрика «sse»

Я устал от Duolingo и написал себе AI-репетитора. Go, Clean Architecture, 4 LLM-модели — и вот что из этого вышло

2026-05-03 в 19:56, admin, рубрики: AI, clean architecture, Go, jwt, llm, modular monolith, pet-project, refresh tokens, sse, изучение английского

Зачем вообще писать ещё одно приложение для изучения языка

Мой рабочий день - это код. Вечером я хочу разговаривать с кем-то по-английски, а не нажимать на пингвинчиков.

Duolingo учит меня заказывать яблоки в магазине.
Memrise превратился в видеоплатформу с озвучкой.
ChatGPT-чат отлично объясняет грамматику, но не помнит, что я уже разбирал Present Perfect в среду и опять путаю его с Past Simple в пятницу.

Читать полностью »

Мы сделали лучший REST фреймворк для Django

2026-03-30 в 15:26, admin, рубрики: asyncio, django, fastapi, python, sse

Привет! Меня зовут Никита Соболев, я core-разработчик языка программирования CPython, а так же core-разработчик фреймворка Litestar, пакета django-stubs и множества других пакетов для Django.

Сегодня я расскажу, как мы сделали самый быстрый и самый семантически корректный фреймворк для создания апишек на Джанго. Поговорим про конкурентов, покажу очень крутые интеграции, поделюсь своей философией и правилами, которые использовались для создания фреймоврка, ну накину на вентилятор для интереса.

Читать полностью »

Деление беззнаковых 8-битных чисел

2024-12-24 в 11:06, admin, рубрики: amd, intel, ryzen, sse, деление

Введение

Деление — достаточно затратная операция. Например, на CPU Cannon Lake задержки 32-битного деления находятся в интервале 10-15 тактов, а на Zen4 — 9-14 тактов. Задержки 32-битного умножения на обоих CPU составляют 3-4 такта.

Ни в одном из популярных ISA SIMD (SSE, AVX, AVX-512, ARM Neon, ARM SVE) нет целочисленного деления, оно есть только в RISC-V Vector Extension. Однако во всех этих ISA есть деление с плавающей запятой.

В этой статье мы представим два подхода к реализации SIMD-деления 8-битных беззнаковых чисел:

с помощью деления с плавающей запятой,
с помощью алгоритма деления столбиком.

Читать полностью »

Неизвестная Windows 11 23H2 сборки 10.0. 25398.1 на базе Windows Server 23H2. Для геймеров и на старое железо

2024-08-14 в 8:05, admin, рубрики: 23H2, 25398, microsoft, reconstruction, sse, timeweb_статьи, windows 11, операционные системы, реконструкция

Сегодня я буду рассказывать кратко о странной версии Windows (рука не поднимается сказать «Windows 11», так как это не совсем правда) – релизе zn_release на базе сборки 10.0.25398.1, на которой выходил лишь Windows Server 23H2 (только Core) и Azure Stack HCI 23H2 (тоже только Core).

Итак, для начала благодарности за данный материал форуму MyDigitalLife, где активно обсуждаются варианты вивисекции ОС Microsoft, и особенно xinsoЧитать полностью »

Обзор инструкций ARM NEON для тех, кто знаком с MMX-SSE-AVX

2021-03-31 в 7:16, admin, рубрики: avx, AVX2, neon, sse, x86, высокая производительность, обработка изображений

Мир изменился. Я чувствую это в воде, чувствую это в земле, ощущаю в воздухе.

«Властелин колец», Джон Рональд Руэл Толкин

Читать полностью »

SSEGWSW: Server-Sent Events Gateway by Service Workers

2019-10-16 в 10:01, admin, рубрики: Google Chrome, http, javascript, server-sent events, service worker, sse, stream api, WebSocket, Блог компании Tinkoff.ru

Привет!

Меня зовут Саша и я работаю архитектором в Тинькофф Бизнес.

В этой статье хочу рассказать о том, как преодолеть ограничение браузеров на количество открытых долгоживущих HTTP-соединений в рамках одного домена при помощи service worker.

Если хотите — смело пропускайте предысторию, описание проблемы, поиск решения и сразу переходите к результату.

SSEGWSW
Читать полностью »

Разновидности SIMD

2019-02-24 в 17:05, admin, рубрики: avx, AVX2, meshoptimizer, simd, sse, параллельное программирование, Проектирование и рефакторинг, Работа с векторной графикой

Разновидности SIMD - 1 Во время разработки meshoptimizer частенько возникает вопрос: «А может этому алгоритму использовать SIMD?»

Библиотека ориентирована на производительность, но SIMD не всегда обеспечивает значительные преимущества по скорости. К сожалению, SIMD может сделать код менее переносимым и менее ремонтопригодным. Поэтому в каждом конкретном случае приходится искать компромисс. Когда первостепенное значение имеет производительность, приходится разрабатывать и поддерживать отдельные реализации SIMD для наборов инструкций SSE и NEON. В других случаях нужно понять, каков эффект от применения SIMD. Сегодня мы попытаемся ускорить меш-рационализатор (sloppy mesh simplifier) — новый алгоритм, недавно добавленный в библиотеку — используя наборы инструкций SSEn/AVXn.
Читать полностью »

Ускоряем неускоряемое или знакомимся с SIMD, часть 2 — AVX

2019-02-18 в 15:21, admin, рубрики: avx, AVX2, C, c++, simd, sse, высокая производительность, Процессоры

Предыдущая часть вызвала бурную дискуссию, в ходе которой выяснилось, что AVX/AVX2 на самом деле есть в десктопных CPU, нет только AVX512. Поэтому продолжаем знакомиться с SIMD, но уже с современной его частью — AVX. А так же разберём некоторые комментарии:

медленнее ли _mm256_load_si256, чем прямое обращение к памяти?
влияет ли на скорость использование AVX команд над SSE регистрами?
действительно ли так плохо использовать _popcnt?Читать полностью »

Ускоряем неускоряемое или знакомимся с SIMD

2019-02-17 в 9:17, admin, рубрики: C, c++, simd, sse, высокая производительность, Процессоры

Есть класс задач, которые нельзя ускорить за счёт оптимизации алгоритмов, а ускорить надо. В этой практически тупиковой ситуации к нам на помощь приходят разработчики процессоров, которые сделали команды, позволяющие выполнять операции на большим количеством данных за одну операцию. В случае x86 процессоров это инструкции сделанные в расширениях MMX, SSE, SSE2, SSE3, SSE4, SSE4.1, SSE4.2, AVX, AVX2, AVX512.
В качестве «подопытного кролика» я взял следующую задачу:

Есть неупорядоченный массив arr с числами типа uint16_t. Необходимо найти количество вхождений числа v в массив arr.

Классическое решение, работающее за линейное время выглядит так:

int64_t cnt = 0;
for (int i = 0; i < ARR_SIZE; ++i)
    if (arr[i] == v)
        ++cnt;

В таком виде бенчмарк показывает следующие результаты:

------------------------------------------------------------
Benchmark                     Time           CPU Iterations
------------------------------------------------------------
BM_Count                   2084 ns       2084 ns     333079

Под катом я покажу как его ускорить в 5+ раз.
Читать полностью »

Как у меня сломался String.getBytes(UTF_8) и что я с этим делал

2018-06-19 в 15:23, admin, рубрики: java, sse, детектив, Процессоры

(спойлер) дебажил, дизасемблил и пришел к выводу что проблема в SSE инструкциях

Привет!

Все началось с того что я писал Load тест на Java для внутреннего компонента системы над которой сейчас работаю. Тест создавал несколько потоков и пытался что-то выполнить очень много раз. В процессе выполнения иногда появлялись java.lang.ArrayIndexOutOfBoundsException: 0 ошибки на строчке очень похожей на эту:

"test".getBytes(StandardCharsets.UTF_8)

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «sse»

Я устал от Duolingo и написал себе AI-репетитора. Go, Clean Architecture, 4 LLM-модели — и вот что из этого вышло

Зачем вообще писать ещё одно приложение для изучения языка

Мы сделали лучший REST фреймворк для Django

Деление беззнаковых 8-битных чисел

Введение

Неизвестная Windows 11 23H2 сборки 10.0. 25398.1 на базе Windows Server 23H2. Для геймеров и на старое железо

Обзор инструкций ARM NEON для тех, кто знаком с MMX-SSE-AVX

SSEGWSW: Server-Sent Events Gateway by Service Workers

Разновидности SIMD

Ускоряем неускоряемое или знакомимся с SIMD, часть 2 — AVX

Ускоряем неускоряемое или знакомимся с SIMD

Как у меня сломался String.getBytes(UTF_8) и что я с этим делал