Рубрика «rag»

Предыстория: архитектура, BIM и попытки автоматизации

Меня зовут Владислав Пономарев, я архитектор, проектирую дома. Ещё в магистратуре, 10 лет назад я занимался BIM-внедрением в проектной организации в Сочи. Это были Revit, Civil 3D и другие инструменты. Делал это в рамках своей темы магистерской работы. ��отом переключился на архитектуру в частном домостроительстве, где больше изучал практические вопросы проектирования и философию архитектуры, ее эстетические качества. Но любовь к более сложному BIM осталась. С энтузиазмом продвигал тему BIM, когда до массового внедрения в РФ было еще далеко.

Читать полностью »

Skeleton Indexing (KDD 2025) + HippoRAG 2 (ICML 2025) + VectorCypher + Datalog Reasoning + 10 итераций оптимизации


TL;DR

Я реализовал Graph RAG систему, которая комбинирует 5 техник из свежих научных статей в единый пайплайн с декларативным reasoning-движком, полной провенансной трассировкой и типизированным API. Результат: 174/180 (96.7%) на билингвальном бенчмарке из 30 вопросов, оценённых в 6 режимах retrieval. Три режима достигли 100%. Ноль persistent failures.

GitHub: Читать полностью »

Привет, я Лена, это мой первый пост здесь, и он про техническую задачу, с которой мы столкнулись: как заставить LLM писать текст так, чтобы его нельзя было отличить от написанного конкретной редакцией. Не «хороший текст», не «грамотный текст», а такой, который звучит как этот конкретный городской портал или этот Telegram-канал.

Читать полностью »

TL;DR: Шесть метрик RAGAS + Precision@K/Recall@K/MRR позволяют поймать деградацию RAG-системы до того, как пользователи заметят галлюцинации. В этой статье будет всё от pip install ragas до автоматических проверок в CI/CD, включая security-тесты на document poisoning.

Проблема

RAG ломается не так, как обычный LLM. У голой языковой модели одна поверхность отказа: генерация. Модель галлюцинирует, отвечает невпопад, игнорирует инструкции. У RAG-системы таких поверхностей две: retrieval и generation. И они ломаются по-разному.

Читать полностью »

В этой статье покажу, как мы собрали RAG-систему на PHP и Qdrant: выбрали векторную базу и LLM, настроили гибридный поиск и реализовали чат-бота на Symfony с использованием PHP фреймворка Neuron AI.

К нам обратился клиент с задачей: сделать чат-бота для поиска информации по внутренней базе знаний (статьи, документация, корпоративные тексты). Главное требование - быстро собрать MVP, чтобы проверить гипотезу и принять решение о дальнейшем развитии системы. Первую версию запустили, получаем хорошие отзывы от пользователей, поэтому решил поделиться и, возможно, получить полезную обратную связь от сообщества.

Стек и компоненты

Читать полностью »

Введение

Добрый день. Сегодня я расскажу о том, как я за 2 месяца с полного нуля создал доменную RAG систему с корпусом в 20+ книг. В статье затрону проблемы парсинга данных (особенно PDF документов, с которыми приходилось иметь дело), чанкинга, создания и индексации эмбеддингов, а также самого интересного – ретривера. Расскажу о latency, трейд-оффах, и сложностях реализации подобных систем локально на ноутбуке (хоть и «игровом») без использования API LLM.

Вся система делалась мной самостоятельно без использования LangChain Читать полностью »

Предположим, вы построили RAG-сервис на SQL, и он отлично работает. Довольно быстро, очень точно, и очень дорого, ведь каждый запрос к сервису требует обращения к LLM для генерации ответа по чанкам, извлеченным из базы знаний. И чем больше мы извлекли таких фрагментов, тем больше входных токенов тратится на составной промпт, даже если ответ будет состоять из одного предложения. 

Можно, конечно, заранее срезать количество извлекаемых чанков, но это отразится на качестве ответов.

Читать полностью »

Эта статья написана без участия ИИ. Для простых смертных. Упрощена.

Сейчас тренд на замену людей нейросетями, вайбкодинг, и другие вещи, которые завернуты в фантик «Беззаботного будущего», всё это мне напоминает предыдущий тренд, который был до появления ИИ — «Успешный успех». Нам продают не технологии, а чувства простоты, на которое люди каждый раз охотно ведутся.

По ощущениям, это тот же барабан с цифрами 777, нам показывают пару удачных прокруток, «джекпоты», счастливые лица, а реальная статистика, цена попыток, и неизбежные промахи остаются за кадром.

Читать полностью »

Приветствую! Представляю вам свой framework - ai-sidekick

Мы разберём готовый к работе фреймворк для экспериментов с MCP-tools. А также, на его основе, рассмотрим архитектуру RAG (Retrieval-Augmented Generation) AI-ассистента для поиска информации в вашей собственной базе знаний. Это не набор абстракций в тысячу строк, а минималистичная кодовая база на Python и Docker, которая предоставляет возможность эксперементировать с конфигурациями и кодом под ваши задачи.

Читать полностью »

Три месяца назад я наблюдал, как мой агент на Llama 3.1 8B в третий раз спрашивает, как меня зовут.

Я представился в первом сообщении. Двести сообщений назад...

Агент забыл. Не потому что тупой. Потому что контекст переполнился и начало разговора уехало в никуда.

Это был момент, когда я понял: мы неправильно думаем о памяти.

Почему большие контексты — это ловушка

Когда вышел Claude с контекстом на миллион токенов, казалось — проблема решена. Запихиваем всё в контекст, модель помнит всё. Красота.

Потом пришёл счёт за API.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js