Рубрика «information retrieval»

Измеряем динамику упоминания сущностей в информационном поле - 1

Сегодня мы покажем дашборд с визуализацией данных о динамике популярных сущностей, засетапим для пользователей хабра отдельный инстанс и дадим на нём возможность следить за собственными показателям, добавив регулярку.
Читать полностью »

Всем привет, я занимаюсь разработкой Frontera, первым в истории фреймворком для масштабного обхода интернета сделанным на Python-е, с открытым исходным кодом. С помощью Фронтеры можно легко сделать робота который сможет выкачивать контент со скоростью тысяч страниц в секунду, при этом следуя вашей стратегии обхода и используя обычную реляционную БД или KV-хранилище для хранения базы ссылок и очереди.

Разработка Фронтеры финансируется компанией Scrapinghub Ltd., имеет полностью открытый исходный код (находится на GitHub, BSD 3-clause лицензия) и модульную архитектуру. Мы стараемся чтобы и процесс разработки тоже был максимально прозрачным и открытым.

В этой статье я собираюсь рассказать о проблемах с которыми мы столкнулись при разработке Фронтеры и эксплуатации роботов на ее основе.
Читать полностью »

Наверно, не стоит тут перечислять все поисковые технологии как предысторию вопроса, освещением которого хотелось бы открыть блог нашего проекта на Мегамозге. Заинтересованным читателям они наверняка известны. Отмечу только, что технологии поиска на сайте и в документах не так разнообразны и развиты как поиск в интернете. По заявлениям одного поисковика, для поиска и ранжирования результатов на корпоративных сайтах применяется где-то 100 параметров. Для сравнения, у них же для поиска в интернете применяется более 1000 различных параметров. Естественно, что даже эти 100 параметров на самом деле сводятся к 3-5 технологиям, в которые они входят.

В основном поиск на сайте стараниями разработчиков ограничивается простым поиском по ключевым с учетом близости слов запроса друг к другу, а также разные варианты ранжирования на основе совстречаемости слов. Еще немного морфологии, синонимов и иногда, как например у RCO, учет некоторых аспектов синтаксиса запроса для установки операторов поиска (см. у них на сайте публикацию о поиске). И на этом по сути технологии поиска в ограниченном корпусе документов заканчиваются. Все эти инструменты встроены в поисковые машины Sphinx и Lucene, доступные любому смертному программисту.

В результате для поиска на сайте мы имеем только поиск по ключевым словам, расширенный морфологией и иногда синонимами. Но поиск по сайту — это не поиск в интернет. Результат гораздо хуже. И вот почему.
Читать полностью »

Будущее поиска: интервью с участниками Европейской конференции по информационному поискуНа прошлой неделе в Москве при поддержке Яндекса прошла одна из двух самых авторитетных мировых конференций по информационному поиску — ECIR 2013 (European Conference on Information Retrieval).

Специально для Хабрахабра Илья Сегалович (iseg), технический директор Яндекса, коротко рассказал, чем она важна; почему то, что она прошла у нас, имеет большое значение и каких усилий нам и нашим соорганизаторам из Высшей школы экономики стоило провести ECIR в Москве.

Также мы взяли несколько интервью у авторов наиболее интересных статей и выступлений, а председателя жюри Best Paper Awards комитета попросили рассказать, о чём были лучшие статьи и почему предметы именно этих исследований сейчас важнее всего для науки и индустрии.
Читать полностью »

image
Good news everybody! В этом году снова состоится уже шестая по счету Российская летняя школа по информационному поиску (RuSSIR).
Если Вы занимаетесь задачами IR, то просто не сможете пропустить это мероприятие (чуть ли не единственное в России), позволяющее получить системные знания по информационному поиску. Даже если у вас уже большой опыт в этой области, скорее всего вы сможете найти что-то новое в программе, поскольку на школу приезжают лекторы со всего мира. А для совсем новичков предусмотрен вводный курс.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js