Главная

Рубрика «llm testing»

Что перестаёт работать в тестировании, когда приходит LLM

2026-06-19 в 9:15, admin, рубрики: ai-агенты, Evals, llm, llm testing, qa, qa lead, STT, TTS

**Слева — привычный зелёный тест. Справа — то, что с ним делает LLM**

RAG Testing: как не сломать retrieval

2026-02-20 в 4:15, admin, рубрики: ai quality, AI safety, DeepEval, llm testing, promptfoo, rag, ragas

TL;DR: Шесть метрик RAGAS + Precision@K/Recall@K/MRR позволяют поймать деградацию RAG-системы до того, как пользователи заметят галлюцинации. В этой статье будет всё от pip install ragas до автоматических проверок в CI/CD, включая security-тесты на document poisoning.

Проблема

RAG ломается не так, как обычный LLM. У голой языковой модели одна поверхность отказа: генерация. Модель галлюцинирует, отвечает невпопад, игнорирует инструкции. У RAG-системы таких поверхностей две: retrieval и generation. И они ломаются по-разному.

Читать полностью »

Публикации RSS | Комментарии RSS

https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js

Информация

Комментарии

Рекомендуем

Рубрика «llm testing»

Что перестаёт работать в тестировании, когда приходит LLM

RAG Testing: как не сломать retrieval

Проблема