
Привет!
Базовые RAG-системы уже научились неплохо справляться с прямыми вопросами по тексту. Но только если ответ лежит в одном конкретном абзаце, а вопрос сформулирован почти так же, как сам исходный документ. Попробуйте заставить систему связать факты из трёх разных источников или сделать банальный логический вывод. В большинстве случаев результат будет неутешительным. А уж про поиск скрытых связей я даже спрашивать боюсь.
Сегодня рассмотрим open-source RAG-фреймворк HippoRAG 2. В сфере RAG главным преимуществом данного фреймворка является качество ответов, потому что принципы его работы основаны на реальном человеческом . Давайте разберёмся, откуда он взялся, как устроен изнутри и как его запустить.
Принципы работы
Префикс «Hippo» в названии — это отсылка к гиппокампу, структуре
Разработчики из Ohio State University взяли за основу теорию гиппокампального индексирования Тейлера и Дисченна. Согласно ей,
В архитектуре HippoRAG каждый компонент соответствует своему нейробиологическому аналогу:
-
LLM играет роль неокортекса. Отвечает за извлечение структурированных представлений из текста.
-
Retrieval-энкодер берёт на себя функцию парагиппокампальных областей мозга, обнаруживая семантические связи.
-
Knowledge граф вместе с алгоритмом PPR (Personalized PageRank) имитирует сам гиппокамп. Он хранит сеть знаний и фактов и умеет строить в ней ассоциативные цепочки при поиске.
В HippoRAG подобный механизм долговременной памяти позволяет выявить скрытые связи между фактами. Речь идёт о многошаговом рассуждении (multi-hop reasoning). Это процесс, при котором система последовательно сопоставляет факты из разных источников по контексту и выстраивает цепочку связей, чтобы ответить на абстрактный вопрос.
Факты внутри системы называются триплетами. Это структурированное представление знаний в виде «субъект — отношение — объект».
К примеру:
-
(Оливер Бэдмен, является, политик).Или:
-
(Монтебелло, часть округа, Рокленд Каунти).
За извлечение триплетов отвечает OpenIE (Open Information Extraction) с помощью LLM. При индексации фреймворк отправляет каждый чанк документа в языковую модель с инструкцией извлечь все структурированные утверждения в виде троек. Результаты кэшируются в openie_cache/, чтобы при повторном запуске не тратить токены снова.
Зачем это нужно? Потому что для многошагового вопроса вроде: «В каком округе родился политик, который…» — обычный RAG просто найдёт документ про политика и отдельно про округ, а связь не уловит. А HippoRAG 2 склеивает два триплета через общую сущность (политик → место рождения → округ). Это и есть так называемая «скрытая связь».
Из всех извлечённых триплетов строится knowledge граф. Не такой огромный, как в GraphRAG, а более компактный(HippoRAG на датасете MuSiQue использует около 9 млн токенов — против 115 млн у GraphRAG).
При загрузке документов помимо создания эмбеддингов для чанков проводится извлечение упомянутых триплетов. Из извлечённых фактов строится knowledge-граф. Соответственно, при ответе на вопрос используется как стандартный проход по эмбеддированным документам с косинусным подобием, так и ранжирование фактов по графу. В этот момент задействуется PPR алгоритм. PPR — это вариация PageRank, где вместо случайного блуждания по всему графу, релевантность узлов измеряется относительно конкретного набора начальных (seed) узлов.
Установка и первый запуск
Установить фреймворк можно через pip или клонировав репозиторий.
conda create -n hipporag python=3.10
conda activate hipporag
pip install hipporag
Далее — пара экспортов (API-ключи и пути к кэшу) из env:
export OPENAI_API_KEY="sk-..."
export HF_HOME="/путь/к/кэшу"
Допустим, у нас есть три документа:
from hipporag import HippoRAG
docs = [
"Oliver Badman is a politician.",
"Montebello is a part of Rockland County.",
"Erik Hort's birthplace is Montebello."
]
hipporag = HippoRAG(
save_dir="my_rag_memory", # сюда упадёт всё: эмбеддинги, граф, кэш
llm_model_name="gpt-4o-mini",
llm_api_key = OPENAI_API_KEY,
llm_base_url = OPENAI_BASE_URL,
embedding_model_name="nvidia/NV-Embed-v2",
embedding_api_key = EMBEDDING_API_KEY,
embedding_base_url = EMBEDDING_BASE_URL
)
Кстати говоря, фреймворк позволяет переопределять base_url для работы с локальными серверами. То есть ничто не мешает поднять собственные FastAPI-серверы с локальными LLM и моделями эмбеддингов или в Google Colab, используя библиотеку transformers, и затем просто указать эндпоинты с их выводом в openai-совместимом формате.
Пример эмбеддинг-модели
Ниже — самописный FastAPI-сервер для эмбеддингов.
import torch
from fastapi import FastAPI, HTTPException
from pydantic import BaseModel
from transformers import AutoTokenizer, AutoModel
from typing import List
import uvicorn
class EmbeddingRequest(BaseModel):
input: List[str] | str
model: str
encoding_format: str = "float"
class EmbeddingResponse(BaseModel):
object: str = "list"
data: List[dict]
model: str
usage: dict
MODEL_NAME = "название вашей модели"
device = "cuda" if torch.cuda.is_available() else "cpu"
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModel.from_pretrained(MODEL_NAME).to(device)
model.eval()
def embed_texts(texts: List[str]) -> List[List[float]]:
inputs = tokenizer(
texts,
padding=True,
truncation=True,
return_tensors="pt",
max_length=512
).to(device)
with torch.no_grad():
outputs = model(**inputs)
embeddings = outputs.last_hidden_state.mean(dim=1)
return embeddings.cpu().numpy().tolist()
app = FastAPI(title="Local Embedding Server (OpenAI-compatible)")
@app.get("/v1/models")
async def list_models():
return {
"object": "list",
"data": [
{
"id": MODEL_NAME,
"object": "model",
"owned_by": "local",
"permission": []
}
]
}
@app.post("/v1/embeddings")
async def create_embedding(request: EmbeddingRequest):
texts = [request.input] if isinstance(request.input, str) else request.input
if not texts:
raise HTTPException(status_code=400, detail="Input text list is empty")
try:
embeddings = embed_texts(texts)
except Exception as e:
raise HTTPException(status_code=500, detail=f"Embedding failed: {str(e)}")
response_data = []
for idx, emb in enumerate(embeddings):
response_data.append({
"object": "embedding",
"index": idx,
"embedding": emb
})
return EmbeddingResponse(
data=response_data,
model=MODEL_NAME,
usage={
"prompt_tokens": sum(len(t) for t in texts),
"total_tokens": sum(len(t) for t in texts)
}
)
if __name__ == "__main__":
uvicorn.run(app, host="0.0.0.0", port=8001)
Теперь этот сервер можно передать в embedding_base_url="http://localhost:8001/v1".
Более простой и производительный вариант — использовать SentenceTransformer. Сервер остаётся полностью совместимым с OpenAI API.
import asyncio
from contextlib import asynccontextmanager
from typing import List, Union
from fastapi import FastAPI, HTTPException
from pydantic import BaseModel
from sentence_transformers import SentenceTransformer
import uvicorn
class EmbeddingRequest(BaseModel):
input: Union[str, List[str]]
model: str
encoding_format: str = "float"
class EmbeddingResponse(BaseModel):
object: str = "list"
data: List[dict]
model: str
usage: dict
@asynccontextmanager
async def lifespan(app: FastAPI):
app.state.model = SentenceTransformer("intfloat/e5-large-v2", device="cuda")
yield
app.state.model = None
app = FastAPI(title="Local Embedding Server (OpenAI-compatible)", lifespan=lifespan)
@app.get("/v1/models")
async def list_models():
return {
"object": "list",
"data": [
{
"id": "local-embedding-model",
"object": "model",
"owned_by": "local",
"permission": []
}
]
}
@app.post("/v1/embeddings")
async def create_embedding(request: EmbeddingRequest):
texts = [request.input] if isinstance(request.input, str) else request.input
if not texts:
raise HTTPException(status_code=400, detail="Input text list is empty")
model: SentenceTransformer = app.state.model
try:
embeddings = model.encode(texts, normalize_embeddings=True)
except Exception as e:
raise HTTPException(status_code=500, detail=f"Embedding failed: {str(e)}")
response_data = [
{
"object": "embedding",
"index": idx,
"embedding": emb.tolist()
}
for idx, emb in enumerate(embeddings)
]
return EmbeddingResponse(
data=response_data,
model=request.model,
usage={
"prompt_tokens": sum(len(text.split()) for text in texts),
"total_tokens": sum(len(text.split()) for text in texts)
}
)
if __name__ == "__main__":
uvicorn.run(app, host="0.0.0.0", port=8001)
Индексация документов
Индексация запускается одной командой:
hipporag.index(docs=docs)
Что происходит внутри?
-
Документы режутся на чанки (стандартно — по предложениям).
-
Каждый чанк эмбеддится.
-
Одновременно LLM обрабатывает каждый чанк через OpenIE и извлекает из него все смысловые триплеты.
-
Триплеты превращаются в узлы и рёбра knowledge-графа.
-
Эмбеддинги узлов графа тоже вычисляются (чтобы потом искать похожие факты).
Где хранится?
В папке my_rag_memory (которую мы передали в save_dir) создаётся структура:
-
embeddings/— плоские файлы с эмбеддингами чанков и узлов графа (обычно.npyили черезfaissиндекс). -
graph/— сериализованный граф (узлы, рёбра, веса). -
openie_cache/— результаты извлечения триплетов, чтобы при повторном запуске не жечь токены заново.
На данном этапе фреймворк хранит эмбеддинги в формате .parquet. Но ничего не мешает дописать совместимость с векторными БД, особенно в наше время.
Важный нюанс: если вы перезапускаете индекс с теми же документами, HippoRAG 2 не будет заново дёргать OpenIE и LLM, а проверит кэш по хешу текста. Так что за токены, хотя бы тут, можете не переживать.
Что возвращает каждая функция?
retrieve — поиск без генерации ответа:
results = hipporag.retrieve(
queries=["What county is Erik Hort's birthplace a part of?"],
num_to_retrieve=2
)
print(results)
На выходе — список списков. Для каждого запроса:
[
[
{"text": "Montebello is a part of Rockland County.", "score": 0.92, "type": "chunk"},
{"text": "Erik Hort's birthplace is Montebello.", "score": 0.87, "type": "chunk"}
]
]
Важный момент: type может быть "chunk" (найденный чанк) или "fact" (найденный триплет из графа) — зависит от того, что победило в ранжировании.
rag_qa — выполняет полный цикл: поиск → передача найденного контекста в LLM → генерация ответа
answers = hipporag.rag_qa(
queries=["What county is Erik Hort's birthplace a part of?"]
)
print(answers)
Вернёт список строк с ответами, например: ["Rockland County"]. В ответе также возвращается список использованных чанков.
Оценка с gold-данными
Один из самых приятных моментов, это когда у вас есть золотые ответы и поддерживающие документы для оценки:
gold_answers = [["Rockland County"]]
gold_docs = [
["Montebello is a part of Rockland County.",
"Erik Hort's birthplace is Montebello."]
]
eval_results = hipporag.rag_qa(
queries=queries,
gold_docs=gold_docs,
gold_answers=gold_answers
)
Тогда в eval_results упадёт словарь с метриками:
-
"retrieval_hit_rate"(попали ли нужные чанки в топ-N), -
"answer_accuracy"(точность ответа, часто через F1 или EM), -
"latency_seconds"— чтобы потом бенчмаркать.
Удаление и добавление документов
Если понадобится удалить документ, есть hipporag.delete_docs(doc_indices=[0,2]).
Граф перестраивается инкрементально, не с нуля. Для добавления новых данных вызывается hipporag.index(docs=new_docs). Система сама определит, что уже проиндексировано, а что нет.
Заключение
Признаюсь, я обожаю HippoRAG 2. Для меня это максимально удобный инструмент, который ещё и справляется лучше своих аналогов. Естественно, он не универсальная затычка для любой проблемы, но в задачах контекста, рассыпанного по множеству документов, ему нет равных.
Я советую обратить внимание на фреймворк уже за то, что авторам удалось решить задачу ассоциативного рассуждения без многократного роста стоимости запросов. Это ли не чудо?
© 2026 ООО «МТ ФИНАНС»
Автор: rRenegat
