Будущее поиска: интервью с участниками Европейской конференции по информационному поиску

Будущее поиска: интервью с участниками Европейской конференции по информационному поиску На прошлой неделе в Москве при поддержке Яндекса прошла одна из двух самых авторитетных мировых конференций по информационному поиску — ECIR 2013 ^[1] (European Conference on Information Retrieval).

Специально для Хабрахабра Илья Сегалович (iseg ^[2]), технический директор Яндекса, коротко рассказал, чем она важна; почему то, что она прошла у нас, имеет большое значение и каких усилий нам и нашим соорганизаторам из Высшей школы экономики ^[3] стоило провести ECIR в Москве.

Также мы взяли несколько интервью у авторов наиболее интересных статей и выступлений, а председателя жюри Best Paper Awards комитета попросили рассказать, о чём были лучшие статьи и почему предметы именно этих исследований сейчас важнее всего для науки и индустрии.

Яшар Мошфеги, University of Glasgow

Начнём с одного из авторов несколько необычной для ECIR статьи — Understanding Relevance: An fMRI Study ^[4]. Учёные из Университета Глазго с помощью магнито-резонансной томографии изучили, какие части мозга ^[5] активируются в момент, когда он решает, является ли та или иная информация релевантной.

^[6]

Мы попросили Яшара Мошфеги рассказать, что им удалось выяснить и как, по его мнению, это может повлиять на судьбу измерений в области информационного поиска в будущем. Кстати, к каждому интервью вы можете включить русские субтитры.

Расшифровка для тех, кто предпочитает читать

Расскажите немного, о чём ваше исследование?

Задачей нашего исследования было найти участки мозга ^[5], которые реагируют на явно релевантную информацию. Под ней мы понимали актуальное определение релевантности. Мы старались увидеть, какие участки мозга ^[5] реагируют на информацию, оцененную как релевантную и нерелевантную, и чем эти реакции отличаются. В течение последних сорока лет в Information Retrieval и Information Science было проведено много исследований, целью которых было понять, какую информацию считать релевантным.

Причина в том, что релевантность — человеческая оценка. И, как всякую человеческую оценку, её трудно понять и описать каким-то определением. Но так как это ключевое понятие в информационном поиске, крайне важно лучше понимать его. И один из способов делать это — заглянуть в мозг ^[5] человека и посмотреть, что в нём происходит. Поэтому мы получили возможность использовать в своём исследовании магнито-резонансный томограф и увидеть, что происходит в человеческом мозге ^[5] во время оценки релевантности и какие его части задействованы в этом процессе.

Как результаты исследования могут быть применены?

Есть две возможности. Первая — теоретическая. Раз уж исследование помогает нам лучше понять, какие участки мозга ^[5] активируются, оно может помочь выяснить, с какой именно функциональностью связан каждый из них. Мы можем лучше понимать, какие процессы происходят в голове у человека, когда он решает, релевантный ли перед ним документ. Но есть и практическое применение, которое может породить новые способы оценки релевантности.

Кстати, о Москве. Это то, какой вы ее себе представляли? Снег в марте?

Ну, я много слышал о снеге, но не думал, что его будет столько! Так что, да, это очень похоже на то, что я видел в кино.

Марк Найорк, Microsoft Research

Марк работает в индустрии информационного поиска уже несколько десятилетий. Он был одним из тех, кто участвовал в разработке первого популярного интернет-поисковика — AltaVista ^[7]. Сейчас Марк — Principal Researcher в Microsoft Research ^[8].

На ECIR 2013 он участвовал в Industry Day и рассказал о своём видении того, в каких случаях социальные данные могли бы помочь в результатах поиска, а в каких — нет. Мы в свою очередь поговорили с Марком о прошлом и будущем поиска, главных трендах, которые он видит, а также о том, какие области будут самыми важными и интересными в Information Retrieval:

Расшифровка для тех, кто предпочитает читать

Насколько я знаю, вы очень давно занимаетесь поиском. Могли бы вы рассказать, с чего начинали?

Я стал заниматься поиском в конце 90-х. Работал в Compaq Computer Corporation, в которой как раз разрабатывалась АльтаВиста. Занимался поисковыми роботами, которые позже в ней и стали использоваться.

Поражаешься, когда видишь то, как быстро веб вырос, какие масштабы приобрел, как поисковые системы справлялись с этим. Я помню, когда АльтаВиста запускалась, по-моему, с 20 млн страниц в индексе. Сегодня такими большими поисковыми системами, как Google, Bing или Яндекс проиндексировано порядка десятков миллиардов страниц. So a factor of a thousand-more. И, я думаю, этот рост долго не остановится.

Думаю, основной задачей в последние десять лет было интегрировать в поиск информацию, которую все больше создают сами пользователи. Если вы посмотрите на то, как начинался веб-поиск, на первые поисковые системы вроде Excite и AltaVista, то увидите, что они использовали традиционные инструменты информационного поиска. То есть пытались понять, насколько хорошо проиндексированные веб-страницы отвечают на поисковые запросы.

Инновация Google была в том, что они стали учитывать, есть ли ссылки на веб-страницу где-то ещё. Следующим приёмом, которым стали пользоваться крупнейшие поисковые системы, включая Яндекс, Google, Bing, стал анализ пользовательского поведения. Для этого использовались запросы, клики, данные о том, как именно человек просматривает страницы. Так сами пользователи стали важным звеном информационного поиска, поиска по интернету.

Всё чаще в него интегрируются вертикальные поиски. Когда вы, например, ищите ресторан, поисковая система даже сегодня показывает вам его меню, часы работы, отзывы, месторасположение. То же самое и в поиске авиакомпаний. Если вы ищете рейс, поисковик помимо всего прочего сам покажет вам, что нужный рейс задержан на полчаса. Начать учитывать разные сценарии вертикального поиска — это одна часть этого шага.

Есть более общее решение. Заметьте, что все упомянутые сценарии подразумевали ответ без необходимости переходить по ссылке. Вы вводите запрос и сразу получаете ответ. Есть движение в сторону того, чтобы эту практику обобщить и на другие области. Чтобы поисковик не просто указывал вам на релевантные документы, но загружал их к себе в разум и синтезировал ответ. Это возможно для любого запроса, в котором… это уже разговор про фактоиды. Если зададите запрос о прибыли Яндекса, поисковик мог бы дать вам готовый ответ, основанный на пяти статьях, которые размер этой прибыли упоминали.

Что, как вы думаете, будет самой интересной областью информационного поиска в следующие пять лет?

О, непростой вопрос. Я думаю — лучшее понимание семантики и смысла в документах. Возможно, мы перестанем относиться к ним, как к мешками слов. Будем извлекать структуру и смысл из страниц.

Мор Нааман, Rutgers University SMIL, Mahaya, Inc.

Рассказ Мора открывал конференцию. Сейчас он разрабатывает стартап Mahaya.co ^[9]. Сервис агрегирует социальные данные и пытается помочь взглянуть через них на события, в которые было вовлечено много людей, под разными углами. Иногда — в буквальном смысле:

Расшифровка для тех, кто предпочитает читать

Я очень люблю IR-сообщество. И хотя я не публиковался в рамках конференций по информационному поиску, но в том, что я делаю, во многом пересекаюсь с ним. Я знаю немало людей, темы исследований которых перекликаются с моей работой. Интерес к социальным медиа, которые, как очевидно, меня волнуют, растёт. И, думаю, будет очень важно понимать, какие инструменты информационного поиска будут полезны для работы с социальными данными.

Моя презентация была о том, как социальные медиа меняют то, как мы видим и понимаем мир. Особенно, если говорить о событиях — всё происходящее сейчас документируется соцмедиа. Вы можете постоянно видеть людей, которые фотографируют и твитят что-то. И благодаря этому у нас есть запись жизни общества и культуры, которая не была доступна ранее. Я рассказал о разных инструментах, которые нужны, чтобы осознать всю эту информацию. Как нам её собрать, найти, организовать, представить и сохранить в более доступном виде. Так, чтобы мы могли записывать мир таким образом, чтобы взаимодействовать с тем, что получилось.

В общем, моя презентация о социальных медиа и том, как они документируют мир, как мы сами это делаем и как нам помочь людям понять это.

Презентацию Мора можно посмотреть на SlideShare ^[10].

Пол Огилви, LinkedIn

Information Retrieval — это не только поиск. Полу Огилви из LinkedIn это понятно больше, чем многим другим. В рамках Industry day он рассказывал о том, как можно оценивать качество предложенного поиска в случае, когда обычные метрики вроде Cranfield style evaluations или методы A/B-тестирования не вполне применимы:

Расшифровка для тех, кто предпочитает читать

Расскажите немного о вашей презентации, пожалуйста.

Я буду рассказывать о том, как много деталей проблемы может теряться в задачах информационного поиска при тех методах оценки, которые сейчас принято использовать. Например, измерениях, основанных на статических коллекциях. В результате этого иногда мы решаем не ту задачу. Так происходит потому, что у нас нет нужных типов данных, чтобы собрать все подробности. Я привожу некоторые примеры вещей, которые мы пропускаем, когда работаем с традиционными коллекциями. И некоторые примеры того, какие данные можно собирать и какие метрики использовать, чтобы не допускать некоторых распространённых искажений.

Мы заняты очень прикладными задачами. У нас нет чисто исследовательских групп. Все, кто занимается исследованиями, также работает над продакшн-системами. И следит за тем, чтобы всё, что мы придумываем и изучаем, было основано на проблемах, с которыми мы же сталкиваемся на самом деле. И одна из самых больших проблем, с которой мы столкнулись в LinkedIn, — то, что когда мы пытаемся оценить качество, нам может не хватить измерений, чтобы предсказать, что будет на реальных данных. Так что мы делаем большой акцент на понимании этого. Потому что умение хорошо предсказывать по правильно собранным данным помогает развиваться намного быстрее.

Арьен де Врис, председатель комитета по награждению лучших статей

Подводя итоги конференции, член жюри Best Paper Awards и оргкомитета ECIR 2013 Арьен де Врис, объяснил, чем круты статьи, признанные лучшими, чем они так важны для индустрии, и поделился своим впечатлением от конференции:

Расшифровка для тех, кто предпочитает читать

Здравствуйте. Что скажете про ECIR в Москве, какие у вас впечатления?

Ну, по-моему, конференция получилась очень хорошей. На ней был освещён очень широкий круг тем, были представлены очень хорошие статьи. Как вы знаете, я был главой комитета, который выбирал лучшие статьи. И мы даже не смогли выбрать одну — пришлось вручить три приза. Причём по темам от спорных междисциплинарных до предельно ясных и прикладных. Мне очень понравилась студенческая статья от исследователя из Яндекса. Важно обратить на неё внимание — думаю, она принесёт пользу в своей области. Так что, если говорить о качестве, конференция была очень хороша.

А что ещё вы можете сказать о лучших статьях? Например, было исследование Яшара про фМРТ. Такой тип исследований — это что-то новое для ECIR? Оно не только про Computer Science, но и про устройство мозга ^[5] людей.

Насколько мне кажется, это первое исследование в информационном поиске, где использовали сканеры фМРТ, чтобы понять, что происходит в мозгу ^[5] у людей, когда они смотрят на изображения и решают, подходят ли они как ответ на вопрос или нет. Сложно сказать, к чему это приведёт. Пока мы знаем только то, что мы можем измерить что-то, относящееся к релевантности, но не знаем, можно ли из этого сделать какое-то обобщение. И довольно сложно будет создать метод, который можно было бы использовать, не заставляя людей лежать в огромном томографе. Тем не менее, насколько я знаю, это, на самом деле, первая работа в этом направлении с ясными результатами. Так что я рад повысить внимание к ней.

И про вторую лучшую статью, если хотите. Она исключительна, потому что есть большая проблема: компании собирают данные, которые им совершенно необходимы, чтобы сделать хороший поисковик. И учёным хотелось бы работать с примерно теми же данными — чтобы проверять свои гипотезы. Но каждой попытке открыто опубликовать такой архив данных мешает вопрос прайваси. И эта работа резко увеличивает процент поисковых логов, которые можно опубликовать, на нарушив ничьего прайваси. Причём сделано это красиво, с использование очень сложной математики, которая прекрасно применена. С очень ясными целями и результатом.

Ссылки на все исследования ^[11], о которых рассказывалось на конференции, уже доступны.

Такая, казалось бы, исследованная область, как информационный поиск, находит всё новые и новые воплощения и измерения. Как вы понимаете, происходит это потому, что наша жизнь в интернете беспрерывно меняется и насыщается. Мы обрастаем связями, данными, устройствами, социальными сетями. Поиск и помощь в организации этой информации приобретают совершенно другое звучание и значение.

Автор: Zalina

Источник ^[12]

Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/yandeks/31209

Ссылки в тексте:

[1] ECIR 2013: http://ecir2013.org/

[2] iseg: http://habrahabr.ru/users/iseg/

[3] Высшей школы экономики: http://www.hse.ru/

[4] Understanding Relevance: An fMRI Study: http://link.springer.com/chapter/10.1007%2F978-3-642-36973-5_2

[5] мозга: http://www.braintools.ru

[6] Image: http://img-fotki.yandex.ru/get/4121/4604496.14/0_63dcc_d3c5f2af_orig

[7] AltaVista: http://www.altavista.com/

[8] Microsoft Research: http://research.microsoft.com/en-us/

[9] Mahaya.co: http://mahaya.co/

[10] посмотреть на SlideShare: http://www.slideshare.net/mor/ecir-2013-keynote-time-for-events

[11] Ссылки на все исследования: http://www.informatik.uni-trier.de/~ley/db/conf/ecir/ecir2013.html

[12] Источник: http://habrahabr.ru/post/175349/

Нажмите здесь для печати.