- PVSM.RU - https://www.pvsm.ru -

Лекции Техносферы. Инфопоиск. Часть 2 (весна 2017)

image

Предлагаем вашему вниманию вторую часть учебного курса, посвящённого информационному поиску.

Все пользователи интернета имеют опыт работы с поисковыми системами, регулярно вводят туда запросы и получают результаты. Поисковые системы стали настолько привычными, что уже сложно себе представить, что когда-то их не было, а качество современного поиска воспринимается как данность, хотя ещё пятнадцать лет назад всё было совершенно иначе. Однако современная поисковая система является сложнейшим программно-аппаратным комплексом, создателям которого пришлось решить огромное количество практических проблем, начиная от большого объёма обрабатываемых данных и кончая нюансами восприятия человеком поисковой выдачи.

В нашем курсе мы рассказываем об основных методах, применяемых при создании поисковых систем. Некоторые из них — хороший пример смекалки, некоторые показывают, где и как может применяться современный математический аппарат.

Список лекций:

  1. Лингвистика. Основы обработки текстов [1]
  2. Коллокации, N-граммы, скрытые марковские цепи [2]
  3. Текстовое ранжирование. Языковые модели [3]
  4. Оценка качества поиска. Сплиты. Асессоры [4]
  5. Ссылочное ранжирование [5]
  6. Поведенческое ранжирование [6]
  7. Машинное обучение в ранжировании. Часть 1 [7]
  8. Learning to Rank 2 [8]
  9. Поиск с использованием нейронных сетей [9]
  10. Хитрые модели текстового ранжирования [10]
  11. Мультимедиа-поиск [11]

Курс ведут:

  • Дмитрий Соловьёв, ведущий разработчик группы ранжирования Поиска Mail.Ru;
  • Константин Зелепукин, разработчик группы поиска по мультимедиа Поиска Mail.Ru;
  • Евгений Чернов, руководитель отдела анализа запросов Поиска Mail.Ru;
  • Алексей Воропаев, руководитель группы разработки рекомендательных систем Поиска Mail.Ru;
  • Владимир Гулин, руководитель разработки Поиска Mail.Ru.

Лекция 1. Лингвистика. Основы обработки текстов

Из первой лекции вы узнаете об этапах ранжирования, основных терминах. Познакомитесь с основными этапами лингвистической обработки документа, нормализацией и токенизацией. Рассматривается задача обработки запросов, преобразования кодировки, извлечения объектов. Обсуждаются проблемы определения языка документа, определения синонимов, расширения запросов, усечения окончаний. Рассматривается лемматизация, а также ряд других задач лингвистической обработки текстов.

Лекция 2. Коллокации, N-граммы, скрытые марковские цепи

Во второй лекции рассматриваются такие темы, как коллокации, методы нахождения в текстах, N-граммы, Марковские модели для обработки текстов, скрытые Марковские модели и тегирование.

Лекция 3. Текстовое ранжирование. Языковые модели

Вы узнаете, что такое ранжированный поиск, познакомитесь с векторной и вероятностной моделями ранжирования, а также латентными моделями.

Лекция 4. Оценка качества поиска. Сплиты. Асессоры

Рассматривается постановка задачи оценки качества поиска, обсуждаются типы метрик, стандартные коллекции. Вы узнаете о методике оценки бинарного и ранжирующего поиска, познакомитесь с маркерными тестами и асессорами. Также в лекции затрагиваются темы Discounted Cumulative Gain, А/Б-тестирования и сплитов.

Лекция 5. Ссылочное ранжирование

Лекция начинается с исторического экскурса в возникновение ссылочного ранжирования. Задаётся проблематика разнообразия поисковых запросов, по которым необходимо провести ранжирование. Вы узнаете, как индексируется анкорный текст, что такое ссылочный граф и как его строить, познакомитесь с алгоритмом HITS. Немалая часть лекции посвящена большой задаче вычисления PageRank. И в завершение затрагивается тема вычисления SiteRank.

Лекция 6. Поведенческое ранжирование

Из лекции вы узнаете, где брать информацию о поведении пользователей, как можно применять эти данные. Рассматривается задача и методики построения модели поведения пользователя, анализа поисковых сессий. Обсуждаются поведенческие модели: CTR, базовая, каскадная, DCM, UBM, CCM, GCM, CRA, PRM, MEM, JRE. Проводится сравнение разных моделей, разбираются их преимущества и недостатки. Рассматривается проблема релеватности и привлекательности поисковой выдачи для пользователя с помощью Dynamic Bayesian Network. Затрагиваются вопросы вычисления ClickRank, Browser Rank, и напоследок — отслеживание движения глаз пользователя при просмотре страницы.

Лекция 7. Машинное обучение в ранжировании. Часть 1

Задаётся терминология и ставится сама задача на проведение ранжирования. Рассматриваются необходимые для проведения ранжирования факторы. Разбирается алгоритм ранжирования DCG, подходы pointwise и pairwise. Обсуждается линейная модель ранжирования SVM, методики RankNet и LambdaRank. Рассматриваются проблемы переобучения алгоритмов, положительной обратной связи и шумных данных. Далее поднимается тема активного машинного обучения: Density Sampling, самоорганизующиеся карты, балансировка датасетов с помощью SOM-карты, алгоритм Query-by-Bagging.

Лекция 8. Машинное обучение в ранжировании. Часть 2

В продолжение предыдущей лекции рассматривается алгоритм ранжирования YetiRank, проводится сравнение с ранее рассмотренным алгоритмом LambdaRank. Далее вы узнаете от так называемом Listwise-подходе к ранжированию: рассказывается об алгоритмах SoftRank, AdaRank и ListNet. В заключение проводится сравнение трёх подходов: Pointwise, Pairwise и Listwise.

Лекция 9. Поиск с использованием нейронных сетей

Лекция посвящена вопросу поиска информации по фотографиям лиц. Описывается проблематика поиска, рассматривается методика подготовки фотографий к анализу, и различные подходы к анализу с помощью нейронных сетей.

Лекция 10. Хитрые модели текстового ранжирования

Рассматриваются недостатки классических моделей текстового ранжирования, недостатки LSA и Word2vec. Далее обсуждаются модели ранжирования без учителя: Doc2vec, семантическое хэширование. Затем рассказывается о моделях ранжирования, основанных на машинном переводе: объясняется, что такое статистический машинный перевод, как выполняется обработка текста, рассматривается алгоритм WTM, машинный перевод на основе слов и фраз. Заключительная часть лекции посвящена моделям ранжирования на основе нейросетей: обсуждается нейросеть Siamese, рассматриваются модели DPM, DSSM и CLSM.

Лекция 11. Мультимедиа-поиск

Лекция состоит из двух частей. Первая часть посвящена поиску по аннотациям, по картинкам, по аудио и видео. Вторая часть посвящена поиску по содержимому, тоже по картинкам и аудио.


Плейлист всех лекций находится по ссылке [12]. Напомним, что актуальные лекции и мастер-классы о программировании от наших IT-специалистов в проектах Технопарк, Техносфера и Технотрек по-прежнему публикуются на канале Технострим [13].

Другие курсы Техносферы на Хабре:

Информацию обо всех наших образовательных проектах вы можете найти в недавней статье [18].

Автор: Olga_ol

Источник [19]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/razrabotka/256064

Ссылки в тексте:

[1] Лингвистика. Основы обработки текстов: https://habrahabr.ru/company/mailru/blog/329352/#lekciya-1-lingvistika-osnovy-obrabotki-tekstov

[2] Коллокации, N-граммы, скрытые марковские цепи: https://habrahabr.ru/company/mailru/blog/329352/#lekciya-2-kollokacii-n-grammy-skrytye-markovskie-cepi

[3] Текстовое ранжирование. Языковые модели: https://habrahabr.ru/company/mailru/blog/329352/#lekciya-3-tekstovoe-ranzhirovanie-yazykovye-modeli

[4] Оценка качества поиска. Сплиты. Асессоры: https://habrahabr.ru/company/mailru/blog/329352/#lekciya-4-ocenka-kachestva-poiska-splity-asessory

[5] Ссылочное ранжирование: https://habrahabr.ru/company/mailru/blog/329352/#lekciya-5-ssylochnoe-ranzhirovanie

[6] Поведенческое ранжирование: https://habrahabr.ru/company/mailru/blog/329352/#lekciya-6-povedencheskoe-ranzhirovanie

[7] Машинное обучение в ранжировании. Часть 1: https://habrahabr.ru/company/mailru/blog/329352/#lekciya-7-mashinnoe-obuchenie-v-ranzhirovanii-chast-1

[8] Learning to Rank 2: https://habrahabr.ru/company/mailru/blog/329352/#lekciya-8-mashinnoe-obuchenie-v-ranzhirovanii-chast-2

[9] Поиск с использованием нейронных сетей: https://habrahabr.ru/company/mailru/blog/329352/#lekciya-9-poisk-s-ispolzovaniem-neyronnyh-setey

[10] Хитрые модели текстового ранжирования: https://habrahabr.ru/company/mailru/blog/329352/#lekciya-10-hitrye-modeli-tekstovogo-ranzhirovaniya

[11] Мультимедиа-поиск: https://habrahabr.ru/company/mailru/blog/329352/#lekciya-11-multimedia-poisk

[12] ссылке: https://www.youtube.com/playlist?list=PLrCZzMib1e9o7YIhOfJtD1EaneGOGkN-_

[13] Технострим: https://www.youtube.com/user/tpmgtu/videos

[14] Инфопоиск. Часть 1: https://habrahabr.ru/company/mailru/blog/329072/

[15] Программирование на Go: https://habrahabr.ru/company/mailru/blog/327966/

[16] Подготовительный курс «Алгоритмы и структуры данных»: https://habrahabr.ru/company/mailru/blog/316170/

[17] Введение в анализ данных: https://habrahabr.ru/company/mailru/blog/311694/

[18] недавней статье: https://habrahabr.ru/company/mailru/blog/328912/

[19] Источник: https://habrahabr.ru/post/329352/