Определения
Zero-shot Learning (ZSL) - это способность модели выполнять задачи без каких-либо примеров обучения. Она делает это за счёт обобщённых знаний, полученных во время предобучения.
Few-shot Learning (FSL) - это метод, при котором модели предоставляется всего несколько примеров (обычно от 1 до 5), чтобы лучше понять структуру задачи.
Архитектура
Zero-shot и Few-shot Learning реализуются в трансформерных архитектурах (GPT, Mistral, LLaMA и тд.) за счёт трех основных внутренних механизмов:
-
Предобученные эмбеддинги: модель уже имеет какие либо знания.
-
Контекстное внимание (Self-Attention): позволяет адаптироваться к входным данным.
