Есть три базовых шага: (i) разметить небольшой датасет, (ii) «откалибровать» LLM-оценщиков и (iii) запускать эксперимент и прогонять обвязку для оценки при каждом изменении конфигурации.
Сначала разметьте данные
Всё начинается с того, что мы выбираем часть входов и выходов из прогонов (вызовов) к нашей LLM и размечаем, соответствует ли выход нашим критериям оценки (например, достоверность по источнику, релевантность и т. п.). Начните с простого: заведите таблицу со столбцами для входа, выхода, дополнительной метаинформации, которая помогает оценить результат, и отдельным столбцом для метки.



