Рубрика «эмбеддинги»

«Привет! Я [0.44, -0.91, 0.66…]» или как научить машину понимать смысл слов

2026-01-13 в 9:01, admin, рубрики: embeddings, machine learning, ml, nlp, ruvds_статьи, вектор, векторное представление, машинное обучение, эмбеддинги

Я уверен, вы видели модели машинного обучения, которые принимают текст и предсказывают, является ли он спамом. Аналогично модель может проанализировать отзыв о фильме и определить его тональность — положительную или отрицательную, понимать что «груша» связана с «яблоком» куда больше, чем с «теплоходом».

Первое правило обучения любой модели машинного обучения — это преобразование входных данных в числа. Любой цифровой объект можно представить как некое число: картинку, текст, аудио или видеофайл — практически всё что угодно.

Читать полностью »

Создаем простую систему RAG на Python

2025-12-25 в 14:09, admin, рубрики: ml, rag, векторный поиск, генеративные модели, семантический поиск, эмбеддинги

Представьте, что вы предоставляете своему ИИ конкретные релевантные документы (или фрагменты), которые он может быстро просмотреть, чтобы найти необходимую информацию, прежде чем ответить на ваши вопросы. То есть, вместо поиска по всей базе данных (которая может не поместиться в контекстное окно модели LLM, или даже если поместится, это потребует много токенов для ответов), мы предоставляем LLM только релевантные документы (фрагменты), которые ему необходимо найти, чтобы ответить на вопрос пользователя.

Читать полностью »

Rise of RAG: от плоских векторов к темпоральным графам в юридическом домене

2025-11-07 в 13:59, admin, рубрики: rag, база знаний, графы, эмбеддинги, юриспруденция

Читать полностью »

Law & Practice Ensemble RAG. Как создать ИИ-ассистента, помогающего решать многоаспектные юридические задачи

2025-09-12 в 13:10, admin, рубрики: large language models, llm, rag, векторные базы данных, Векторные хранилища, индексация, ранжирование, эмбеддинги

Автор статьи: Сергей Слепухин

В первой части мы кратко рассмотрели предпосылки и последствия ИИ‑трансформации деятельности юристов, а также предложили вариант архитектуры продвинутой RAG‑системы, учитывающей особенности юридической предметной области.

Во этой частиЧитать полностью »

Law & Practice Ensemble RAG. Как создать ассистента, помогающего решать многоаспектные юридические задачи

2025-09-11 в 14:15, admin, рубрики: dense retrieval, Fine-tuning, large language models, llm, rag, трансформеры, эмбеддинги, языковые модели

Автор статьи: Сергей Слепухин

Большие языковые модели (LLM) в последние несколько лет являются ключевым направлением искусственного интеллекта (ИИ). Дальнейшее развитие LLM, очевидно, меняет сам способ взаимодействия с технологиями, снижая порог входа для представителей всех профессий, в том числе исконно гуманитарных.

Читать полностью »

Как мы построили embedding-модель уха на Vision Transformers: от идеи до 88% точности

2025-07-25 в 10:57, admin, рубрики: cnn, embeddings, Visual transformer, биометрическая аутентификация, биометрия, искусственный интеллект, Компьютерное зрение, распознавание изображений, эмбеддинги

Пока весь мир гонится за распознаванием лиц и отпечатков пальцев, мы в решили взглянуть на человека чуть сбоку — буквально.

Читать полностью »

Простой механизм поиска с нуля

2025-06-22 в 9:01, admin, рубрики: ruvds_перевод, word2vec, векторизация, косинусное сходство, поиск, эмбеддинги

Мы с Крисом недавно «с нуля» буквально за пару часов создали механизм поиска для моего блога. Основную часть проделал именно Крис, так как до этого с word2vec я был знаком лишь отдалённо.

Читать полностью »

Знакомьтесь, FRIDA. Открытая эмбеддинг-модель для русского языка

2025-05-20 в 7:37, admin, рубрики: AI, ml, nlp, эмбеддинги

В этой статье мы расскажем о нашей новой модели FRIDA, которая сейчас (20.05.2025) занимает первое место в русскоязычном бенчмарке MTEB (ссылка на таблицу лидеров).

Ранее мы уже Читать полностью »

Миллиарды векторов и немного магии: превращаем сырые данные с маркетплейсов в пригодные для анализа

2025-02-21 в 5:59, admin, рубрики: big data, faiss, аналитика, искусственный интеллект, маркетплейсы, нейросети, обработка изображений, семантический поиск, эмбеддинги

Привет! Я — Игорь Старун, BigData Lead в MPSTATS. Я уже 3 года занимаюсь анализом данных на маркетплейсах, штудируя гигантские объёмы информации и превращая их из непотребного и нечитаемого вида в удобоваримый и анализируемый. Моя задача — собрать и подготовить данные так, чтобы помочь продавцам на маркетплейсах разобраться, что происходит с их товарами, конкурентами и продажами, чтобы они не утонули в хаосе карточек, цен и остатков. В этой статье я расскажу, как мы перерабатываем эти объемы грязных данных и структурируем для дальнейшего анализа.

Данные о товарах – это основа всего.Читать полностью »

pg_auto_embeddings — считаем эмбеддинги для текста прямо в Postgres, без экстеншенов

2025-01-10 в 11:30, admin, рубрики: embeddings, postgres, postgresql, rag, векторные представления, ИИ, эмбеддинги

У вас есть PostgreSQL база, где хранится множество текстовых данных. Вы хотите использовать векторные представления (embeddings), к примеру, от OpenAI, чтобы построить систему рекомендаций, улучшенный поиск или реализовать RAG для работы с LLM. Но при этом ставить расширения (extensions) не хочется, а может, и вовсе нельзя — например, в облачных Managed PostgreSQL зачастую нет нужных прав.

pg_auto_embeddings Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «эмбеддинги»

«Привет! Я [0.44, -0.91, 0.66…]» или как научить машину понимать смысл слов

Создаем простую систему RAG на Python

Rise of RAG: от плоских векторов к темпоральным графам в юридическом домене

Law & Practice Ensemble RAG. Как создать ИИ-ассистента, помогающего решать многоаспектные юридические задачи

Law & Practice Ensemble RAG. Как создать ассистента, помогающего решать многоаспектные юридические задачи

Как мы построили embedding-модель уха на Vision Transformers: от идеи до 88% точности

Простой механизм поиска с нуля

Знакомьтесь, FRIDA. Открытая эмбеддинг-модель для русского языка

Миллиарды векторов и немного магии: превращаем сырые данные с маркетплейсов в пригодные для анализа

pg_auto_embeddings — считаем эмбеддинги для текста прямо в Postgres, без экстеншенов