Главная

Рубрика «bm25»

Как гуманитарий за 2 месяца с нуля RAG систему построил, или Парсинг PDF по-хардкору

2026-02-13 в 9:15, admin, рубрики: bm25, embeddings, faiss, nlp, ocr, PDF, rag, tesseract, машинное обучение. нейросети python, Построение поисковых систем

Введение

Добрый день. Сегодня я расскажу о том, как я за 2 месяца с полного нуля создал доменную RAG систему с корпусом в 20+ книг. В статье затрону проблемы парсинга данных (особенно PDF документов, с которыми приходилось иметь дело), чанкинга, создания и индексации эмбеддингов, а также самого интересного – ретривера. Расскажу о latency, трейд-оффах, и сложностях реализации подобных систем локально на ноутбуке (хоть и «игровом») без использования API LLM.

Вся система делалась мной самостоятельно без использования LangChain Читать полностью »

Почему ваш RAG не найдёт нужные документы: математический потолок embedding-моделей

2026-01-23 в 7:16, admin, рубрики: bm25, embedding, machine learning, rag, retrieval, векторные базы данных, нейросети, поиск

Вы внедрили RAG в продакшен. Embedding-модель занимает топовые позиции на MTEB, векторная база настроена, chunking оптимизирован. Всё работает. Пока пользователи не начинают жаловаться: "Система не находит очевидные документы". Вы проверяете — документы есть, запросы адекватные. В чём дело?

Исследователи из Google DeepMind нашли ответ в статье "On the Theoretical Limitations of Embedding-Based Retrieval", и он неприятный. Оказывается, embedding-модели имеют фундаментальный математический потолок — и никакие данные, никакое обучение, никакой размер модели его не пробьют. Это не баг. Это геометрия.

Читать полностью »

Новая методика существенно повышает эффективность систем RAG в поиске необходимых документов

2024-10-11 в 14:18, admin, рубрики: bm25, llm, rag, искусственный интеллект, нейросети, эмбеддинги

Метод генерации с дополнением извлечения (RAG) стал популярным способом связывания больших языковых моделей (LLM) с внешними источниками знаний. Системы RAG обычно используют модель эмбеддингов для кодирования документов в корпусе знаний и выбирают те, которые наиболее соответствуют запросу пользователя.

Дисклеймер 1: это вольный перевод заметкиЧитать полностью »

Как найти иголку в стоге сена? Или обозор Retrieval Algorithms

2024-09-02 в 9:15, admin, рубрики: ANN, bm25, hnsw, hnswlib, k-d tree, LSH, product quantization, tf-idf

Появление трансформеров, а впоследствии LLM (Large Language Models) привело к активному распространению чат-ботов и различных ассистентов помогающих в получении информации или генерации контента. Но несмотря на то что LLM способны по запросу генерировать человекоподобные тексты, они подвержены галлюцинациям Читать полностью »

Публикации RSS | Комментарии RSS

https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js

Информация

Комментарии

Рекомендуем