Рубрика «LLM тестирование»

Всем привет! Меня зовут Максим. Я NLP‑инженер в red_mad_robot и автор Telegram‑канала Максим Максимов // IT, AI. В этой статье я расскажу о том, как тестировать приложения с использованием Large Language Model (LLM), на примере инструмента DeepEval.

Тестирование приложений, в которых используются LLM, отличается от тестирования других приложений. В частности, можно выделить 2 основные проблемы:

  • Недетерминированность. В связи со своей спецификой LLM могут давать разные ответы на одни и те же запросы, что создаёт сложности во время тестирования;

  • Работа с естественным языком.Читать полностью »

Как убедиться, что ваша LLM не выдаст полную чепуху в самый неподходящий момент? Как проверить, что она действительно понимает контекст, а не просто генерирует красивые, но бессмысленные фразы? И самое главное — как сделать это эффективно, не тратя недели на ручную проверку тысяч ответов?

Как ухватить LLM за хвост: эффективные стратегии тестирования AI-моделей - 1

Введение

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js