Главная

Рубрика «information retrieval»

Измеряем динамику упоминания сущностей в информационном поле

2017-08-22 в 10:55, admin, рубрики: big data, data mining, information retrieval, statoperator, text mining, web crawling, визуализация данных, открытые данные, Регулярные выражения

Сегодня мы покажем дашборд с визуализацией данных о динамике популярных сущностей, засетапим для пользователей хабра отдельный инстанс и дадим на нём возможность следить за собственными показателям, добавив регулярку.
Читать полностью »

Frontera: архитектура фреймворка для обхода веба и текущие проблемы

2017-03-29 в 12:16, admin, рубрики: big data, frontera, Hbase, information retrieval, python, Анализ и проектирование систем, высокая производительность, метки: frontera

Всем привет, я занимаюсь разработкой Frontera, первым в истории фреймворком для масштабного обхода интернета сделанным на Python-е, с открытым исходным кодом. С помощью Фронтеры можно легко сделать робота который сможет выкачивать контент со скоростью тысяч страниц в секунду, при этом следуя вашей стратегии обхода и используя обычную реляционную БД или KV-хранилище для хранения базы ссылок и очереди.

Разработка Фронтеры финансируется компанией Scrapinghub Ltd., имеет полностью открытый исходный код (находится на GitHub, BSD 3-clause лицензия) и модульную архитектуру. Мы стараемся чтобы и процесс разработки тоже был максимально прозрачным и открытым.

В этой статье я собираюсь рассказать о проблемах с которыми мы столкнулись при разработке Фронтеры и эксплуатации роботов на ее основе.
Читать полностью »

Умный поиск или что можно улучшить в поиске на сайте

2015-04-22 в 10:56, admin, рубрики: information retrieval, semantic web, Блог компании Smart Search, Исследования и прогнозы в IT, поисковая оптимизация

Наверно, не стоит тут перечислять все поисковые технологии как предысторию вопроса, освещением которого хотелось бы открыть блог нашего проекта на Мегамозге. Заинтересованным читателям они наверняка известны. Отмечу только, что технологии поиска на сайте и в документах не так разнообразны и развиты как поиск в интернете. По заявлениям одного поисковика, для поиска и ранжирования результатов на корпоративных сайтах применяется где-то 100 параметров. Для сравнения, у них же для поиска в интернете применяется более 1000 различных параметров. Естественно, что даже эти 100 параметров на самом деле сводятся к 3-5 технологиям, в которые они входят.

В основном поиск на сайте стараниями разработчиков ограничивается простым поиском по ключевым с учетом близости слов запроса друг к другу, а также разные варианты ранжирования на основе совстречаемости слов. Еще немного морфологии, синонимов и иногда, как например у RCO, учет некоторых аспектов синтаксиса запроса для установки операторов поиска (см. у них на сайте публикацию о поиске). И на этом по сути технологии поиска в ограниченном корпусе документов заканчиваются. Все эти инструменты встроены в поисковые машины Sphinx и Lucene, доступные любому смертному программисту.

В результате для поиска на сайте мы имеем только поиск по ключевым словам, расширенный морфологией и иногда синонимами. Но поиск по сайту — это не поиск в интернет. Результат гораздо хуже. И вот почему.
Читать полностью »

Будущее поиска: интервью с участниками Европейской конференции по информационному поиску

2013-04-04 в 12:29, admin, рубрики: Bing, information retrieval, linkedin, microsoft, Yandex, Блог компании Яндекс, интервью, Поисковые машины и технологии, сегалович, яндекс, метки: Bing, information retrieval, linkedin, microsoft, Yandex, интервью, сегалович

На прошлой неделе в Москве при поддержке Яндекса прошла одна из двух самых авторитетных мировых конференций по информационному поиску — ECIR 2013 (European Conference on Information Retrieval).

Специально для Хабрахабра Илья Сегалович (iseg), технический директор Яндекса, коротко рассказал, чем она важна; почему то, что она прошла у нас, имеет большое значение и каких усилий нам и нашим соорганизаторам из Высшей школы экономики стоило провести ECIR в Москве.

Также мы взяли несколько интервью у авторов наиболее интересных статей и выступлений, а председателя жюри Best Paper Awards комитета попросили рассказать, о чём были лучшие статьи и почему предметы именно этих исследований сейчас важнее всего для науки и индустрии.
Читать полностью »

Все, что вы хотели узнать про Information Retrieval, но не знали, где спросить

2012-04-20 в 5:26, admin, рубрики: information retrieval, machine translation, web science, Мероприятия, Поисковые машины и технологии, Учебный процесс в IT, метки: information retrieval, machine translation, web science

Good news everybody! В этом году снова состоится уже шестая по счету Российская летняя школа по информационному поиску (RuSSIR).
Если Вы занимаетесь задачами IR, то просто не сможете пропустить это мероприятие (чуть ли не единственное в России), позволяющее получить системные знания по информационному поиску. Даже если у вас уже большой опыт в этой области, скорее всего вы сможете найти что-то новое в программе, поскольку на школу приезжают лекторы со всего мира. А для совсем новичков предусмотрен вводный курс.

Читать полностью »

Публикации RSS | Комментарии RSS

https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «information retrieval»

Измеряем динамику упоминания сущностей в информационном поле

Frontera: архитектура фреймворка для обхода веба и текущие проблемы

Умный поиск или что можно улучшить в поиске на сайте

Будущее поиска: интервью с участниками Европейской конференции по информационному поиску

Все, что вы хотели узнать про Information Retrieval, но не знали, где спросить

Архив

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «information retrieval»

Измеряем динамику упоминания сущностей в информационном поле

Frontera: архитектура фреймворка для обхода веба и текущие проблемы

Умный поиск или что можно улучшить в поиске на сайте

Будущее поиска: интервью с участниками Европейской конференции по информационному поиску

Все, что вы хотели узнать про Information Retrieval, но не знали, где спросить

Новости

Актуальные темы

Архив