Эксперимент по хирургическому удалению слоёв из языковой модели
TL;DR
Я взял TinyLlama (1.1B параметров, 22 слоя) и начал удалять из неё слои, чтобы проверить гипотезу: современные LLM переобучены, и многие слои делают одно и то же.
Результаты:
-
Удалил 1 средний слой → +10% скорость, -4% качество
-
Удалил 7 слоёв (безопасных) → +30% скорость, -2.5% качество
-
Удалил первый слой → модель сломалась
-
Неожиданно: Layer 2 важнее Layer 0! (+6.67 vs +3.92 perplexity)
Протестировал все 22 слоя по отдельности. Вот что нашёл.




