Рубрика «DeepEval»

RAG Testing: как не сломать retrieval

2026-02-20 в 4:15, admin, рубрики: ai quality, AI safety, DeepEval, llm testing, promptfoo, rag, ragas

TL;DR: Шесть метрик RAGAS + Precision@K/Recall@K/MRR позволяют поймать деградацию RAG-системы до того, как пользователи заметят галлюцинации. В этой статье будет всё от pip install ragas до автоматических проверок в CI/CD, включая security-тесты на document poisoning.

Проблема

RAG ломается не так, как обычный LLM. У голой языковой модели одна поверхность отказа: генерация. Модель галлюцинирует, отвечает невпопад, игнорирует инструкции. У RAG-системы таких поверхностей две: retrieval и generation. И они ломаются по-разному.

Читать полностью »

Тестирование LLM-приложений с DeepEval

2026-01-13 в 18:26, admin, рубрики: DeepEval, llm, LLM тестирование, llm-приложения, исскуственный интеллект

Всем привет! Меня зовут Максим. Я NLP‑инженер в red_mad_robot и автор Telegram‑канала Максим Максимов // IT, AI. В этой статье я расскажу о том, как тестировать приложения с использованием Large Language Model (LLM), на примере инструмента DeepEval.

Тестирование приложений, в которых используются LLM, отличается от тестирования других приложений. В частности, можно выделить 2 основные проблемы:

Недетерминированность. В связи со своей спецификой LLM могут давать разные ответы на одни и те же запросы, что создаёт сложности во время тестирования;
Работа с естественным языком.Читать полностью »

GPT-4o vs YandexGPT: как мы отлаживали метрики в DeepEval из-за требований ИБ

2025-08-15 в 7:20, admin, рубрики: DeepEval, llm, автоматизация тестирования, консистентность, метрики качества, релевантность

Введение: Наш самый полезный баг

Привет, я Рамиль, QA-инженер в компании Raft. В своей работе я фокусируюсь на автоматизации тестирования, в том числе для LLM-решений, где часто использую связку Pytest и специализированных фреймворков. Эта статья — история из нашей недавней практики.

Когда перед нами встала задача построить автоматизированную систему оценки (evaluation) для LLM-классификатора, который должен был сортировать запросы клиентов, выбор инструментов казался очевидным. Мы взяли DeepEvalЧитать полностью »

Инструменты, задачи, рассуждения: как понять, на что способен твой LLM-агент

2025-05-01 в 11:00, admin, рубрики: AI, ai agent, DeepEval, llm, llm-агент, rag, ИИ, ии-агенты

Читать полностью »

Интеграция DeepEval для тестирования LlamaIndex Workflow

2025-04-04 в 14:22, admin, рубрики: DeepEval, llamaindex, workflow

Введение

Тестирование сложных систем, таких как LlamaIndex Workflow, включающих несколько шагов, извлечение данных и генерацию текста с помощью LLM, является нетривиальной задачей. Стандартные методы тестирования не всегда могут оценить семантическое качество и релевантность генерируемых ответов. DeepEval предоставляет набор инструментов и метрик, специально разработанных для оценки LLM-приложений, что делает его подходящим решением для тестирования LlamaIndex Workflow.

В ходе исследования были рассмотрены два основных подхода к интеграции DeepEval:

Прямое использование DeepEval:Читать полностью »

Оценка систем LLM: основные метрики, бенчмарки и лучшие практики

2025-01-22 в 11:34, admin, рубрики: DeepEval, g-eval, llm, Text-SQL, бенчмарки

Читать полностью »

Оценка RAG: Полное руководство по модульному тестированию RAG в CI-CD

2024-12-12 в 9:59, admin, рубрики: DeepEval, llm, rag, RAGA

Читать полностью »

5 лучших фреймворков с открытым исходным кодом для оценки больших языковых моделей (LLM) в 2024 году

2024-12-10 в 9:30, admin, рубрики: arize ai, DeepEval, llm, mlflow, rag, ragas

Коротко о главном

«У меня такое чувство, что решений для оценки LLM больше, чем проблем, связанных с их оценкой», — сказал Дилан, руководитель отдела ИИ в компании из списка Fortune 500.

Читать полностью »

Как ухватить LLM за хвост: эффективные стратегии тестирования AI-моделей

2024-11-26 в 12:32, admin, рубрики: AI метрики, DeepEval, GEval, LangSmith, llm, LLM тестирование

Как убедиться, что ваша LLM не выдаст полную чепуху в самый неподходящий момент? Как проверить, что она действительно понимает контекст, а не просто генерирует красивые, но бессмысленные фразы? И самое главное — как сделать это эффективно, не тратя недели на ручную проверку тысяч ответов?

Как ухватить LLM за хвост: эффективные стратегии тестирования AI-моделей - 1

Введение

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «DeepEval»

RAG Testing: как не сломать retrieval

Проблема

Тестирование LLM-приложений с DeepEval

GPT-4o vs YandexGPT: как мы отлаживали метрики в DeepEval из-за требований ИБ

Инструменты, задачи, рассуждения: как понять, на что способен твой LLM-агент

Интеграция DeepEval для тестирования LlamaIndex Workflow

Оценка систем LLM: основные метрики, бенчмарки и лучшие практики

Оценка RAG: Полное руководство по модульному тестированию RAG в CI-CD

5 лучших фреймворков с открытым исходным кодом для оценки больших языковых моделей (LLM) в 2024 году

Коротко о главном

Как ухватить LLM за хвост: эффективные стратегии тестирования AI-моделей

Введение