Рубрика «Few-shot»

Где мы все? Судя по классическому циклу зрелости, Large Language Models (LLM) уверенно маршируют к вершине «Пика завышенных ожиданий». Энтузиазм бьёт ключом: каждый день – новые анонсы и инвестиции. Как руководитель отдела инновационных проектов в «Первой грузовой компании», я вижу этот ажиотаж и сам погружен в изучение потенциала LLM для нашей отрасли. Иллюзия всесильности ИИ сейчас сильна как никогда. Мы сейчас явно находимся на пике завышенных ожиданий.

Читать полностью »

Привет! Меня зовут Миша Мартьянов, я инженер по исследованиям и разработке в red_mad_robot. Моя работа — искать новые идеи, проверять гипотезы и улучшать продукты. На этом пути иногда приходится изобретать уникальные решения. Например, мы создали собственный фильтр, чтобы отсеивать нежелательный контент с помощью LLM. Рассказываю, как мы к этому пришли и с какими сложностями столкнулись.

Читать полностью »

Определения

Zero-shot Learning (ZSL) - это способность модели выполнять задачи без каких-либо примеров обучения. Она делает это за счёт обобщённых знаний, полученных во время предобучения.

Few-shot Learning (FSL) - это метод, при котором модели предоставляется всего несколько примеров (обычно от 1 до 5), чтобы лучше понять структуру задачи.

Архитектура

Zero-shot и Few-shot Learning реализуются в трансформерных архитектурах (GPT, Mistral, LLaMA и тд.) за счёт трех основных внутренних механизмов:

  • Предобученные эмбеддинги: модель уже имеет какие либо знания.

  • Контекстное внимание (Self-Attention): позволяет адаптироваться к входным данным.

  • Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js