Всем привет!
DeepEval - фреймворк для оценки работы AI с открытым исходным кодом.
Содержит в себе множество метрик и бенчмарков для оценки качества работы AI моделей, а также предоставляет инструменты для аналитики изменений качества работы в течение разных периодов времени.
В предыдущей статье мы уже частично осветили имеющиеся у DeepEval метрики (метрики для оценки RAG).
В этой статье постараемся объяснить, какой еще функционал предлагается DeepEval для работы с AI.
Помимо указанных ранее в DeepEval присутствуют следующие метрики:
-
Agentic
- Task Completion
- Tool Correctness
- Argument Correctness


