Рубрика «релевантность»

В нескольких недавних постах обсуждался многообещающий и достаточно простой способ оценки качества поиска по продуктам с использованием намерений. Спешим представить открытый автоматизированный инструмент для такого рода тестирования — Intent-based Search Quality. Идея сводится к использованию заранее подготовленных «фокусированных» запросов, ценность которых заключается в их прямолинейности и однозначной интерпретации.

Первый релиз открытого инструмента для тестирования поиска по продуктам - 1

Если вас заинтересовал подход, обязательно обратите внимание на пост “Я намереваюсь купить” или самый простой способ оценить качество продуктового поиска. Переход от стандартного A/B тестирования к тестированию с использованием намерений может показаться не совсем очевидным.
Читать полностью »

Обсуждая качество продуктового поиска и способы его автоматизированного тестирования, в прошлый раз, пришли к пониманию некоторой непрозрачности проблемы. Огромное количество интернет-магазинов часто ставят покупателей в тупик, не находя требуемого по простейшим запросам, а проблемы как бы и нет. Одним словом, смотрим на реальные проблемы не очень релевантного поиска очень популярного интернет-магазина (который очень хочет быть «маркетплейсом»).

Бензиновые велосипеды или странный поиск продуктов (e-commerce) - 1
Читать полностью »

На статью натолкнул топик на forum.searchengines.guru, где часто люди пытаются найти VPS подешевле, строят и мониторят миллионы каталогов, которые почти бесполезны для пользователей, за исключением их создателей (и ниже я объясню почему), с целью поиска максимально дешевого предложения, что является самой большой ошибкой в случае новичка-вебмастера, недооценивающего возможности хостинга или переоценивающего пользу дешевого виртуального сервера в его случае.Читать полностью »

Каким был Интернет 1.0 до социальных сетей, пока не набежали широкие массы, дерущиеся за деньги и власть?

Сейчас другой Интернет. Время от времени появляются нововведения, решающие старые проблемы и добавляющие новые…
Одно из таких введений — GDPR, вступающий в действие в мае 2018-го.
Читать полностью »

"Дуэли запрещены в субботу, воскресенье и остальные дни недели."

Речь в статье пойдет о некоторых нюансах операции выборки данных. Эта довольно востребованная в информационных системах операция сводится фактически к определению принадлежности значений (элементов) множествам. Табличная функция, содержащая значения-множества, называется регистром правил. При наличии нескольких множеств, которым принадлежит элемент, возникает вопрос определения наиболее релевантного из них. Вопросам оценки релевантности выборки данных посвящена первая часть работы.

Элементы, универсумы и регистры правил - 1

Забегая вперед, укажем, что основным результатом (многолетних наблюдений) является то, что в реляционных отношениях следует учитывать род атрибутов — являются ли значения атрибута отношения конкретными (элементами) или абстрактными (множествами). При этом в операции выборки данных атрибуты входной таблицы и таблицы, к которой обращаются, должны быть разных родов. Более подробно об этом — во 2-й части.

И еще одна оговорка. Там, где приходилось выбирать между простотой (понятностью) описания и его строгостью, автор старался выбирать простоту (хотя слов, в том числе не всегда понятных, все равно набралось много).

Читать полностью »

В предыдущей части речь шла о видах сегментации, которые доступны на начальном этапе работы с подписчиками. То есть, на основе базовой информации, до взаимодействия с вашим брендом.

В продолжение темы, мы расскажем о работе с данными, которые стали результатом взаимодействия подписчика с вашими рассылками и сайтом. А еще о том, как компания Finish Line повысила продажи с помощью сегментации на 50%.

Сегментация как она есть. Часть 2 - 1
Фото Rob Sinclair (Flickr)
Читать полностью »

В конце августа «Яндекс. Директ», как известно, перейдет с аукционной системы GSP (аукцион «второй цены») на модель VCG (Викри-Кларка-Гроувса).
«В отличие от действующего аукциона, где рост цены клика связан с ростом позиции, в новом аукционе VCG цена клика растет непосредственно с ростом трафика», — сообщают в «Яндексе».
Такой переход повысит выгоды для рекламодателей, так как аукцион оптимизирует цену за клик на любой позиции блока. Но тут возникает вопрос по использованию нового инструментария со стороны рекламодателей, чтобы эти самые позиции и цены были наиболее привлекательными.Читать полностью »

Оценка контента одна из главных составляющих формулы релевантности. Знание текстовых признаков и вклад каждого из них в оценку сайта позволит приблизиться к более профессиональной работе с ресурсом. В данной статье будет рассмотрена модель, позволяющая восстановить формулу ранжирования по каждому конкретному запросу, указана значимость определение тематики сайта при продвижении по определенному запросу, а также проработан вопрос, связанного с определением неестественного текста.

Восстановление формулы ранжирования

Если переводить данную задачу в область математики, то входные данные можно представить набором векторов, где каждый вектор – множество характеристик каждого сайта, а координаты в векторе – параметр, по которым оценивается сайт. В описанном векторном пространстве обязательно должна быть задана функция, определяющая отношение порядка двух объектов между собой. Эта функция позволяет ранжировать объекты между собой по принципу «больше — меньше», однако при этом сказать, насколько именно одно больше или меньше другого – нельзя. Такого вида задачи относятся к задачам оценки порядковой регрессии.
Наши сотрудники разработали алгоритм на основе модели линейной регрессии с регулируемой селективностью, который позволил с определенной долей погрешности восстановить ранги сайтов и спрогнозировать изменение выдачи при соответствующих корректировках параметров сайта. Первым шагом алгоритма является обучение модели. В данном случае обучающая выборка представляет собой результаты ранжирования сайтов в рамках одного поискового запроса. Упорядоченность сайтов в рамках поискового запроса фактически означает, что в признаковом пространстве существует некоторое направление, на которое объекты обучающей выборки должны проектироваться в нужном порядке. Это направление и является искомым в задаче восстановления формулы ранжирования. Однако судя по рис.1, таких направлений может быть много.
image
Рис. 1. Выбор направляющего вектора

Для решения данного вопроса был рассмотрен подход, лежащий в основе метода опорных точек, а именно – выбор такого направления, которое будет обеспечивать максимальное удаление объектов друг от друга.
Следующая задача, которая была решена — выбор стратегии обучения. Рассматривалось два варианта – сокращенная стратегия обучения, при которой учитывается порядок двух соответствующих элементов, и полная стратегия, которая учитывает весь порядок объектов. В результате экспериментов была выбрана сокращенная стратегия, которая заключается в решении следующего уравнения:(1)
image, где image — решение стандартной задачи квадратичного программирования при линейных ограничениях: image, где
image — симметричная матрица
image — вектор коэффициента
image — разница векторов характеристик

Данный подход на различных выборках (100 признаков и 500 признаков на 20 различных множествах поисковых запросов) показал хорошие результаты (см. табл. 1).

Таблица 1. Результаты сокращенной модели

image
image
Рис. 2. Восстановленные коэффициенты регрессии при n=100
image
Рис. 3. Восстановленные коэффициенты регрессии при n=500
Если говорить о результатах на конкретных запросах, то проведенные эксперименты дают следующий показатель ошибка

Таблица 2. Ошибки вычислений

image

При работе над проектом данный подход использовался для прогнозирования позиций при конкретном изменении на сайте. Подобные эксперименты проводились на базе текстовых признаков. Первоначально были собраны данные по сайтам из ТОП20 по рассматриваемому запросу, затем данные подвергались стандартизации с помощью соответствующего алгоритма. После чего выполнялся алгоритм непосредственно по вычислению «релевантности» с помощью метода квадратичного программирования.
Полученные значения релевантности сайта сортируются и делается вывод о восстановленных позициях.

Таблица 3. Восстановление позиций

image
Читать полностью »

Анализ возможностей массового аудита на основе утечки хешей из LinkedInНеделю назад утекла база хешей с LinkedIn, для других это событие может быть примечательным само по себе, но для меня, в первую очередь, это означает возможность провести анализ современных возможностей взлома паролей. И я не собираюсь рассказывать о том сколько раз слово «password» было встречено среди паролей и о том, сколько времени занимает перебор шестисимвольных комбинаций. Скорее буду пугать пользователей тем, насколько сложные пароли можно «взломать» за несколько часов. А программистам расскажу как это возможно эффективно реализовать, и в качестве небольшого подарка приложу программу, которую я написал для массового аудита. Присутствует и некоторый ликбез по использованию радужных таблиц с простыми выводами.

И так, за час удалось «восстановить» около 2.5 миллионов паролей на средней рабочей конфигурации, без специальных словарей и радужных таблиц. Среди найденных паролей присутствуют 16-символьные алфавитно-цифровые комбинации, и далеко не в единственном экземпляре.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js