Рубрика «поиск»

Здравствуйте, уважаемые читатели !

В серии статей хочу рассказать о создании основного функционала MVP (Minimum Value Product) системы по управлению цифровыми активами для базы данных PostGIS. Полный перечень возможностей разрабатываемого проекта представлен на картинке ниже.

Читать полностью »

Вы внедрили RAG в продакшен. Embedding-модель занимает топовые позиции на MTEB, векторная база настроена, chunking оптимизирован. Всё работает. Пока пользователи не начинают жаловаться: "Система не находит очевидные документы". Вы проверяете — документы есть, запросы адекватные. В чём дело?

Исследователи из Google DeepMind нашли ответ в статье "On the Theoretical Limitations of Embedding-Based Retrieval", и он неприятный. Оказывается, embedding-модели имеют фундаментальный математический потолок — и никакие данные, никакое обучение, никакой размер модели его не пробьют. Это не баг. Это геометрия.

Читать полностью »

Описание инструмента: «Анализ конфигураций»

Для сильно измененных конфигураций 1С я разработал универсальный механизм автоматической проверки корректности вызова глобальных функций и процедур основной конфигурации, всех подключенных расширений, отчетов и обработок, который позволит выявить следующие ошибки:

  1. Метод объекта не обнаружен.

  2. Недостаточно фактических параметров.

  3. Слишком много фактических параметров. 

Назначение:Читать полностью »

Зачем строить свой собственный?

Зачем вообще делать что-то своё?

Я знаю, что вы можете подумать: «Почему бы просто не использовать Elasticsearch?» или «А что насчёт Algolia?» Это вполне рабочие решения, но у них есть нюансы. Нужно разбираться с их API, поддерживать инфраструктуру под них и учитывать все тонкости их работы.

Но иногда хочется чего-то более простого — такого, что:

  • работает прямо с вашей текущей базой данных;

  • не требует сторонних сервисов;

  • легко понять и отладить;

  • действительно выдаёт релевантные результаты.

Читать полностью »

Привет! Нейросети стремительно входят в нашу жизнь, и вот уже Яндекс встроил свою «Алису» прямо в поисковую выдачу. Иногда это удобно, но часто хочется видеть классический список ссылок, а не огромный блок сгенерированного текста, который отодвигает всё остальное вниз.

Я решил вернуть себе контроль над поиском и написал простое браузерное расширение, которое убирает всё лишнее. Назвал его «Bye Bye Alice AI». В этой короткой статье я покажу, как оно устроено.

Задача

Нужно было убрать два основных элемента:

Читать полностью »

В эпоху, когда большие языковые модели (LLM) становятся всё более мощными и применяются во многих задачах, одна из ключевых проблем остаётся прежней — как эффективно снабжать их релевантным контекстом. Одним из популярных решений является подход RAG, где качество итогового ответа зависит от целого ряда факторов, одним из которых является качественное чанкирование исходных текстов. Сегодня мы рассмотрим одно из новых и интересных решений.

Всем привет! Меня зовут Вадим, я Data Scientist в компании Raft. В этой статье я расскажу о ChonkieЧитать полностью »

Только что Госдума приняла поправки в закон, в частности, о введении штрафов за поиск в Интернете экстремистских материалов и получение доступа к ним.

Попробуем разобрать формулировки без эмоций и кликбейта, понять, что конкретно в нём написано, и за что могут привлечь с юридической точки зрения. У нас ведь правовое государство по Конституции.

1. Предлагается ввести новую статью КоАП — 13.53:

«Статья 13.53. Поиск заведомо экс*х материалов и получение доступа к ним, в том числе с использованием программно-аппаратных средств…».

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js