Рубрика «квантование»

Всем привет! Меня зовут Максим, я NLP‑инженер в red_mad_robot и автор Telegram‑канала Максим Максимов // IT, AI. Рост числа параметров в LLM и других нейронных сетях создает проблему того, что запускать их может все меньшее количество людей. Это связано с тем, что запуск больших моделей требует наличие мощного оборудования, недоступное всем. 

Для решения этой проблемы разрабатываются различные виды оптимизации, позволяющие запускать крупные нейронные сети (в частности LLM) на менее мощном оборудовании. Одним из наиболее популярных подходов оптимизации LLM является квантизация.

Читать полностью »

67 iPhone против одной H100: почему гибкость не побеждает чистую мощность - 1

В мире ИИ часто ищут нестандартные пути, пытаясь оптимизировать стоимость вычислений.

Читать полностью »

Квантовать или не квантовать LLM? - 1

Многие онлайн-сервисы предлагают доступ к проприетарным LLM. Однако по различным причинам может возникнуть необходимость использовать эти модели на своем оборудовании. Аренда серверов, особенно с GPU, может быть дорогой и зависит от требований к RAM/VRAM. Квантование моделей помогает снизить эти требования.

Итак, в этой статье мы:

  1. Расскажем о квантовании и как оно помогает в выборе оборудованияЧитать полностью »

Краткий гайд по квантованию нейросетей - 1

Мы достаточно написали статей про оптимизацию ваших нейросетей, сегодня пора перейти к дроблению, уменьшению и прямому урезанию, иначе квантованию данных. Сам по себе процесс этот несложный с точки зрения всего, но подводные камни у операции есть.

Читать полностью »

Как настроить LLM на локальном сервере? Краткое руководство для ML-специалистов - 1

Привет! Все чаще коллеги из ML замечают, что компаниям нравятся возможности ChatGPT, но далеко не каждая готова передавать данные во внешние АРІ и жертвовать своей безопасностью. В результате команды начинают внедрять open source-LLM, развернутые локально. Чтобы осуществить этот процесс, инженерам нужно выполнить две задачи.

  • Сделать удобную «песочницу» для экспериментов, чтобы быстро проверять гипотезы для бизнеса.
  • Эффективно масштабировать найденные кейсы внутри компании, по возможности снижая затраты на ресурсы.

В статье рассказываем, какие есть проблемы у open source-LLM и как оптимизировать инференс модели с помощью квантизации и LoRA-адаптеров. Подробности под катом!

Автор: Алексей Гончаров, основатель платформы Compressa.ai для разработки GenAI-решений на своих серверах.
Читать полностью »

Самый маленький корректный Baseline JPEG (159 байтов)

Самый маленький корректный Baseline JPEG (159 байтов)

Недавно на Хабре была опубликована статья Разбираем самый маленький PNG в мире. Интересно, а какой самый маленький файл JPEG? В ответах на StackOverflow и RedditЧитать полностью »

Всех приветствую, меня зовут Антон Рябых, работаю в Doubletapp. Вместе с коллегой Данилом Гальпериным мы написали статью про важный этап в процессе обучения нейронных сетей и получения необходимых нам результатов —  оптимизацию модели. Зачем нужно оптимизировать модель, если и так все работает? Но как только вы начнете разворачивать модель на устройстве, которое будет ее обрабатывать, перед вами встанет множество проблем.

Читать полностью »

Среди людей с критическим взглядом на окружающий мир укоренился стереотип о том, что аудиоформаты высокого разрешения(с частотой дискретизации более 44,1 Гц и квантованием более 16 бит) в бытовой звуковоспроизводящей аппаратуре — это лишь маркетологическая уловка, которая создана для тех, кто не знает о порогах восприятия. Мол, там улучшения за пределами порогов человеческого восприятия.

Аудиофилькина грамота: несколько слов в защиту HI-RES - 1

Я долго склонялся к похожему мнению, пока не стал периодически отмечать то, что некоторые из хайрез записей мне субъективно (по необъяснимой причине) нравятся больше. Не могу сказать, что я с лёгкостью пройду слепой тест и с высокой точностью определить, где хайрез, а где mp3 с битрейтом 320 кбит/с. Но вслушиваясь в записи в формате AIFF с частотой дискретизации 192 кГц и разрядностью 32 бита, мне показалось, что я замечаю едва различимые улучшения в динамическом диапазоне и при воспроизведении низких.

Не очень доверяю своим ушам. Я засомневался в собственных выводах и решил раскопать что-нибудь по поводу теоретической возможности услышать эти различия.
К своему удивлению обнаружил не росказни маркетологов, а вполне себе авторитетные оценки специалистов AES (Audio Engineering society). Однозначный ответ мои поиски не дали, но я стал менее категорично относится к хайрезу.

Опираясь на личный опыт, я не раз писал, что Hi-res нужен только людям, которым недостаточно слушать, но нужно знать о том, что качество звука безупречное. Проанализировав выводы аудиоинженеров и специалистов по психоакустике, я понял, что теоретическая возможность услышать разницу все же есть.Читать полностью »

На Yelp хранится более 100 миллионов пользовательских фотографий, от картинок ужинов и причёсок до одной из наших последних фич, #yelfies. Эти изображения составляют основную часть трафика для пользователей приложения и веб-сайта, а их хранение и передача обходятся недёшево. Стараясь предоставить людям наилучший сервис, мы усиленно работали над оптимизацией всех фотографий и добились среднего уменьшения размера на 30%. Это экономит людям время и трафик, а также сокращает наши расходы на обслуживание этих изображений. Ах да, и мы сделали это без ухудшения качества фотографий!

Исходные данные

Yelp хранит пользовательские фотографии уже 12 лет. Мы сохраняем lossless-форматы (PNG, GIF) как PNG, а все остальные форматы в JPEG. Для сохранения файлов используются Python и Pillow, а загрузки фотографий начинаются примерно с такого сниппета:

# do a typical thumbnail, preserving aspect ratio
new_photo = photo.copy()
new_photo.thumbnail(
    (width, height),
    resample=PIL.Image.ANTIALIAS,
)
thumbfile = cStringIO.StringIO()
save_args = {'format': format}
if format == 'JPEG':
    save_args['quality'] = 85
new_photo.save(thumbfile, **save_args)

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js