Рубрика «оптимизация нейросетей»

Эксперимент по хирургическому удалению слоёв из языковой модели


TL;DR

Я взял TinyLlama (1.1B параметров, 22 слоя) и начал удалять из неё слои, чтобы проверить гипотезу: современные LLM переобучены, и многие слои делают одно и то же.

Результаты:

  • Удалил 1 средний слой → +10% скорость, -4% качество

  • Удалил 7 слоёв (безопасных) → +30% скорость, -2.5% качество

  • Удалил первый слой → модель сломалась

  • Неожиданно: Layer 2 важнее Layer 0! (+6.67 vs +3.92 perplexity)

Протестировал все 22 слоя по отдельности. Вот что нашёл.


Зачем это нужно?

Читать полностью »

Всем привет! Меня зовут Максим, я NLP‑инженер в red_mad_robot и автор Telegram‑канала Максим Максимов // IT, AI. Рост числа параметров в LLM и других нейронных сетях создает проблему того, что запускать их может все меньшее количество людей. Это связано с тем, что запуск больших моделей требует наличие мощного оборудования, недоступное всем. 

Для решения этой проблемы разрабатываются различные виды оптимизации, позволяющие запускать крупные нейронные сети (в частности LLM) на менее мощном оборудовании. Одним из наиболее популярных подходов оптимизации LLM является квантизация.

Читать полностью »

Краткий гайд по квантованию нейросетей - 1

Мы достаточно написали статей про оптимизацию ваших нейросетей, сегодня пора перейти к дроблению, уменьшению и прямому урезанию, иначе квантованию данных. Сам по себе процесс этот несложный с точки зрения всего, но подводные камни у операции есть.

Читать полностью »

«А можно быстрее?»: практические советы по ускорению обучения нейросетей - 1

Мы продолжаем изучать, как ускоряют обучение нейросетей. В прошлой статье мы погрузились в теоретические аспекты этой проблемы. Сегодня перейдем к практике. 

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js