Рубрика «DeepEval»

Всем привет! Меня зовут Максим. Я NLP‑инженер в red_mad_robot и автор Telegram‑канала Максим Максимов // IT, AI. В этой статье я расскажу о том, как тестировать приложения с использованием Large Language Model (LLM), на примере инструмента DeepEval.

Тестирование приложений, в которых используются LLM, отличается от тестирования других приложений. В частности, можно выделить 2 основные проблемы:

  • Недетерминированность. В связи со своей спецификой LLM могут давать разные ответы на одни и те же запросы, что создаёт сложности во время тестирования;

  • Работа с естественным языком.Читать полностью »

Введение: Наш самый полезный баг

Привет, я Рамиль, QA-инженер в компании Raft. В своей работе я фокусируюсь на автоматизации тестирования, в том числе для LLM-решений, где часто использую связку Pytest и специализированных фреймворков. Эта статья — история из нашей недавней практики.

Когда перед нами встала задача построить автоматизированную систему оценки (evaluation) для LLM-классификатора, который должен был сортировать запросы клиентов, выбор инструментов казался очевидным. Мы взяли DeepEvalЧитать полностью »

Введение

Тестирование сложных систем, таких как LlamaIndex Workflow, включающих несколько шагов, извлечение данных и генерацию текста с помощью LLM, является нетривиальной задачей. Стандартные методы тестирования не всегда могут оценить семантическое качество и релевантность генерируемых ответов. DeepEval предоставляет набор инструментов и метрик, специально разработанных для оценки LLM-приложений, что делает его подходящим решением для тестирования LlamaIndex Workflow.

В ходе исследования были рассмотрены два основных подхода к интеграции DeepEval:

  1. Прямое использование DeepEval:Читать полностью »

5 лучших фреймворков с открытым исходным кодом для оценки больших языковых моделей (LLM) в 2024 году - 1

Коротко о главном

«У меня такое чувство, что решений для оценки LLM больше, чем проблем, связанных с их оценкой», — сказал Дилан, руководитель отдела ИИ в компании из списка Fortune 500.

Читать полностью »

Как убедиться, что ваша LLM не выдаст полную чепуху в самый неподходящий момент? Как проверить, что она действительно понимает контекст, а не просто генерирует красивые, но бессмысленные фразы? И самое главное — как сделать это эффективно, не тратя недели на ручную проверку тысяч ответов?

Как ухватить LLM за хвост: эффективные стратегии тестирования AI-моделей - 1

Введение

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js