Рубрика «квантование»

Как квантовать LLM. Практическое руководство для начинающих

2025-12-10 в 18:37, admin, рубрики: llm, искусственный интеллект, квантование, оптимизация нейросетей

Всем привет! Меня зовут Максим, я NLP‑инженер в red_mad_robot и автор Telegram‑канала Максим Максимов // IT, AI. Рост числа параметров в LLM и других нейронных сетях создает проблему того, что запускать их может все меньшее количество людей. Это связано с тем, что запуск больших моделей требует наличие мощного оборудования, недоступное всем.

Для решения этой проблемы разрабатываются различные виды оптимизации, позволяющие запускать крупные нейронные сети (в частности LLM) на менее мощном оборудовании. Одним из наиболее популярных подходов оптимизации LLM является квантизация.

Читать полностью »

67 iPhone против одной H100: почему гибкость не побеждает чистую мощность

2025-09-27 в 14:41, admin, рубрики: apple, BitNet, H100, iPhone 6S, Nvidia, дистилляция, квантование, прореживание, терафлопсы

В мире ИИ часто ищут нестандартные пути, пытаясь оптимизировать стоимость вычислений.

Читать полностью »

Разбираемся с суффиксами квантования LLM: что на самом деле значат Q4_K_M, Q6_K и Q8_0

2025-06-16 в 17:15, admin, рубрики: AI, llm, llm-архитектура, llm-модели, llm-приложения, ml, ИИ, ИИ и машинное обучение, искусственный интеллект, квантование

Привет!
Читать полностью »

Квантовать или не квантовать LLM?

2024-10-10 в 8:42, admin, рубрики: llama.cpp, llm, квантование

Многие онлайн-сервисы предлагают доступ к проприетарным LLM. Однако по различным причинам может возникнуть необходимость использовать эти модели на своем оборудовании. Аренда серверов, особенно с GPU, может быть дорогой и зависит от требований к RAM/VRAM. Квантование моделей помогает снизить эти требования.

Итак, в этой статье мы:

Расскажем о квантовании и как оно помогает в выборе оборудованияЧитать полностью »

Краткий гайд по квантованию нейросетей

2024-10-04 в 15:57, admin, рубрики: TensorFlow, как уменьшить память нейросети, квантование, машинное обучение, нейросеть, оптимизация нейросетей, ускорить модель ИИ

Мы достаточно написали статей про оптимизацию ваших нейросетей, сегодня пора перейти к дроблению, уменьшению и прямому урезанию, иначе квантованию данных. Сам по себе процесс этот несложный с точки зрения всего, но подводные камни у операции есть.

Читать полностью »

Как настроить LLM на локальном сервере? Краткое руководство для ML-специалистов

2024-09-27 в 13:10, admin, рубрики: compresia, compressa ai, llm, lora-адаптеры, selectel, большие языковые модели, квантование, машинное обучение

Привет! Все чаще коллеги из ML замечают, что компаниям нравятся возможности ChatGPT, но далеко не каждая готова передавать данные во внешние АРІ и жертвовать своей безопасностью. В результате команды начинают внедрять open source-LLM, развернутые локально. Чтобы осуществить этот процесс, инженерам нужно выполнить две задачи.

Сделать удобную «песочницу» для экспериментов, чтобы быстро проверять гипотезы для бизнеса.
Эффективно масштабировать найденные кейсы внутри компании, по возможности снижая затраты на ресурсы.

В статье рассказываем, какие есть проблемы у open source-LLM и как оптимизировать инференс модели с помощью квантизации и LoRA-адаптеров. Подробности под катом!

Автор: Алексей Гончаров, основатель платформы Compressa.ai для разработки GenAI-решений на своих серверах.
Читать полностью »

Разбираем самый маленький JPEG в мире

2024-02-08 в 13:28, admin, рубрики: DCT, jpeg, квантование, Хаффман

Самый маленький корректный Baseline JPEG (159 байтов)

Недавно на Хабре была опубликована статья Разбираем самый маленький PNG в мире. Интересно, а какой самый маленький файл JPEG? В ответах на StackOverflow и Reddit Читать полностью »

Neural Network Optimization: океан в капле

2023-03-16 в 14:51, admin, рубрики: cезон machine learning, neural networks, OpenVINO, tensorrt, Блог компании Doubletapp, дистилляция, искусственный интеллект, квантование, кластеризация, машинное обучение, нейронные сети, обработка изображений, Серверная оптимизация

Всех приветствую, меня зовут Антон Рябых, работаю в Doubletapp. Вместе с коллегой Данилом Гальпериным мы написали статью про важный этап в процессе обучения нейронных сетей и получения необходимых нам результатов — оптимизацию модели. Зачем нужно оптимизировать модель, если и так все работает? Но как только вы начнете разворачивать модель на устройстве, которое будет ее обрабатывать, перед вами встанет множество проблем.

Читать полностью »

Аудиофилькина грамота: несколько слов в защиту HI-RES

2018-04-25 в 23:03, admin, рубрики: hi-res, аудиоаппаратура, аудиоформаты, аудиоформаты высокого разрешения, Блог компании Pult.ru, звук, квантование, Научно-популярное, физика, форматы звука, харез, частота дискретизации

Среди людей с критическим взглядом на окружающий мир укоренился стереотип о том, что аудиоформаты высокого разрешения(с частотой дискретизации более 44,1 Гц и квантованием более 16 бит) в бытовой звуковоспроизводящей аппаратуре — это лишь маркетологическая уловка, которая создана для тех, кто не знает о порогах восприятия. Мол, там улучшения за пределами порогов человеческого восприятия.

Аудиофилькина грамота: несколько слов в защиту HI-RES - 1

Я долго склонялся к похожему мнению, пока не стал периодически отмечать то, что некоторые из хайрез записей мне субъективно (по необъяснимой причине) нравятся больше. Не могу сказать, что я с лёгкостью пройду слепой тест и с высокой точностью определить, где хайрез, а где mp3 с битрейтом 320 кбит/с. Но вслушиваясь в записи в формате AIFF с частотой дискретизации 192 кГц и разрядностью 32 бита, мне показалось, что я замечаю едва различимые улучшения в динамическом диапазоне и при воспроизведении низких.

Не очень доверяю своим ушам. Я засомневался в собственных выводах и решил раскопать что-нибудь по поводу теоретической возможности услышать эти различия.
К своему удивлению обнаружил не росказни маркетологов, а вполне себе авторитетные оценки специалистов AES (Audio Engineering society). Однозначный ответ мои поиски не дали, но я стал менее категорично относится к хайрезу.

Опираясь на личный опыт, я не раз писал, что Hi-res нужен только людям, которым недостаточно слушать, но нужно знать о том, что качество звука безупречное. Проанализировав выводы аудиоинженеров и специалистов по психоакустике, я понял, что теоретическая возможность услышать разницу все же есть.Читать полностью »

Сжатие фотографий без видимой потери качества: опыт Yelp

2017-06-25 в 16:30, admin, рубрики: jpeg, Mozjpeg, pillow, yelp, квантование, компрессия, оптимизация, Серверная оптимизация, сжатие данных, хранение данных

На Yelp хранится более 100 миллионов пользовательских фотографий, от картинок ужинов и причёсок до одной из наших последних фич, #yelfies. Эти изображения составляют основную часть трафика для пользователей приложения и веб-сайта, а их хранение и передача обходятся недёшево. Стараясь предоставить людям наилучший сервис, мы усиленно работали над оптимизацией всех фотографий и добились среднего уменьшения размера на 30%. Это экономит людям время и трафик, а также сокращает наши расходы на обслуживание этих изображений. Ах да, и мы сделали это без ухудшения качества фотографий!

Исходные данные

Yelp хранит пользовательские фотографии уже 12 лет. Мы сохраняем lossless-форматы (PNG, GIF) как PNG, а все остальные форматы в JPEG. Для сохранения файлов используются Python и Pillow, а загрузки фотографий начинаются примерно с такого сниппета:

# do a typical thumbnail, preserving aspect ratio
new_photo = photo.copy()
new_photo.thumbnail(
    (width, height),
    resample=PIL.Image.ANTIALIAS,
)
thumbfile = cStringIO.StringIO()
save_args = {'format': format}
if format == 'JPEG':
    save_args['quality'] = 85
new_photo.save(thumbfile, **save_args)

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «квантование»

Как квантовать LLM. Практическое руководство для начинающих

67 iPhone против одной H100: почему гибкость не побеждает чистую мощность

Разбираемся с суффиксами квантования LLM: что на самом деле значат Q4_K_M, Q6_K и Q8_0

Квантовать или не квантовать LLM?

Краткий гайд по квантованию нейросетей

Как настроить LLM на локальном сервере? Краткое руководство для ML-специалистов

Разбираем самый маленький JPEG в мире

Neural Network Optimization: океан в капле

Аудиофилькина грамота: несколько слов в защиту HI-RES

Сжатие фотографий без видимой потери качества: опыт Yelp

Исходные данные