Всем привет! Меня зовут Максим. Я NLP‑инженер в red_mad_robot и автор Telegram‑канала Максим Максимов // IT, AI. В этой статье я расскажу о том, как тестировать приложения с использованием Large Language Model (LLM), на примере инструмента DeepEval.
Тестирование приложений, в которых используются LLM, отличается от тестирования других приложений. В частности, можно выделить 2 основные проблемы:
-
Недетерминированность. В связи со своей спецификой LLM могут давать разные ответы на одни и те же запросы, что создаёт сложности во время тестирования;
-
Работа с естественным языком.Читать полностью »





