- PVSM.RU - https://www.pvsm.ru -
Предлагаем вашему вниманию вторую часть учебного курса, посвящённого информационному поиску.
Все пользователи интернета имеют опыт работы с поисковыми системами, регулярно вводят туда запросы и получают результаты. Поисковые системы стали настолько привычными, что уже сложно себе представить, что когда-то их не было, а качество современного поиска воспринимается как данность, хотя ещё пятнадцать лет назад всё было совершенно иначе. Однако современная поисковая система является сложнейшим программно-аппаратным комплексом, создателям которого пришлось решить огромное количество практических проблем, начиная от большого объёма обрабатываемых данных и кончая нюансами восприятия человеком поисковой выдачи.
В нашем курсе мы рассказываем об основных методах, применяемых при создании поисковых систем. Некоторые из них — хороший пример смекалки, некоторые показывают, где и как может применяться современный математический аппарат.
Список лекций:
Курс ведут:
Из первой лекции вы узнаете об этапах ранжирования, основных терминах. Познакомитесь с основными этапами лингвистической обработки документа, нормализацией и токенизацией. Рассматривается задача обработки запросов, преобразования кодировки, извлечения объектов. Обсуждаются проблемы определения языка документа, определения синонимов, расширения запросов, усечения окончаний. Рассматривается лемматизация, а также ряд других задач лингвистической обработки текстов.
Во второй лекции рассматриваются такие темы, как коллокации, методы нахождения в текстах, N-граммы, Марковские модели для обработки текстов, скрытые Марковские модели и тегирование.
Вы узнаете, что такое ранжированный поиск, познакомитесь с векторной и вероятностной моделями ранжирования, а также латентными моделями.
Рассматривается постановка задачи оценки качества поиска, обсуждаются типы метрик, стандартные коллекции. Вы узнаете о методике оценки бинарного и ранжирующего поиска, познакомитесь с маркерными тестами и асессорами. Также в лекции затрагиваются темы Discounted Cumulative Gain, А/Б-тестирования и сплитов.
Лекция начинается с исторического экскурса в возникновение ссылочного ранжирования. Задаётся проблематика разнообразия поисковых запросов, по которым необходимо провести ранжирование. Вы узнаете, как индексируется анкорный текст, что такое ссылочный граф и как его строить, познакомитесь с алгоритмом HITS. Немалая часть лекции посвящена большой задаче вычисления PageRank. И в завершение затрагивается тема вычисления SiteRank.
Из лекции вы узнаете, где брать информацию о поведении пользователей, как можно применять эти данные. Рассматривается задача и методики построения модели поведения пользователя, анализа поисковых сессий. Обсуждаются поведенческие модели: CTR, базовая, каскадная, DCM, UBM, CCM, GCM, CRA, PRM, MEM, JRE. Проводится сравнение разных моделей, разбираются их преимущества и недостатки. Рассматривается проблема релеватности и привлекательности поисковой выдачи для пользователя с помощью Dynamic Bayesian Network. Затрагиваются вопросы вычисления ClickRank, Browser Rank, и напоследок — отслеживание движения глаз пользователя при просмотре страницы.
Задаётся терминология и ставится сама задача на проведение ранжирования. Рассматриваются необходимые для проведения ранжирования факторы. Разбирается алгоритм ранжирования DCG, подходы pointwise и pairwise. Обсуждается линейная модель ранжирования SVM, методики RankNet и LambdaRank. Рассматриваются проблемы переобучения алгоритмов, положительной обратной связи и шумных данных. Далее поднимается тема активного машинного обучения: Density Sampling, самоорганизующиеся карты, балансировка датасетов с помощью SOM-карты, алгоритм Query-by-Bagging.
В продолжение предыдущей лекции рассматривается алгоритм ранжирования YetiRank, проводится сравнение с ранее рассмотренным алгоритмом LambdaRank. Далее вы узнаете от так называемом Listwise-подходе к ранжированию: рассказывается об алгоритмах SoftRank, AdaRank и ListNet. В заключение проводится сравнение трёх подходов: Pointwise, Pairwise и Listwise.
Лекция посвящена вопросу поиска информации по фотографиям лиц. Описывается проблематика поиска, рассматривается методика подготовки фотографий к анализу, и различные подходы к анализу с помощью нейронных сетей.
Рассматриваются недостатки классических моделей текстового ранжирования, недостатки LSA и Word2vec. Далее обсуждаются модели ранжирования без учителя: Doc2vec, семантическое хэширование. Затем рассказывается о моделях ранжирования, основанных на машинном переводе: объясняется, что такое статистический машинный перевод, как выполняется обработка текста, рассматривается алгоритм WTM, машинный перевод на основе слов и фраз. Заключительная часть лекции посвящена моделям ранжирования на основе нейросетей: обсуждается нейросеть Siamese, рассматриваются модели DPM, DSSM и CLSM.
Лекция состоит из двух частей. Первая часть посвящена поиску по аннотациям, по картинкам, по аудио и видео. Вторая часть посвящена поиску по содержимому, тоже по картинкам и аудио.
Плейлист всех лекций находится по ссылке [12]. Напомним, что актуальные лекции и мастер-классы о программировании от наших IT-специалистов в проектах Технопарк, Техносфера и Технотрек по-прежнему публикуются на канале Технострим [13].
Другие курсы Техносферы на Хабре:
Информацию обо всех наших образовательных проектах вы можете найти в недавней статье [18].
Автор: Olga_ol
Источник [19]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/razrabotka/256064
Ссылки в тексте:
[1] Лингвистика. Основы обработки текстов: https://habrahabr.ru/company/mailru/blog/329352/#lekciya-1-lingvistika-osnovy-obrabotki-tekstov
[2] Коллокации, N-граммы, скрытые марковские цепи: https://habrahabr.ru/company/mailru/blog/329352/#lekciya-2-kollokacii-n-grammy-skrytye-markovskie-cepi
[3] Текстовое ранжирование. Языковые модели: https://habrahabr.ru/company/mailru/blog/329352/#lekciya-3-tekstovoe-ranzhirovanie-yazykovye-modeli
[4] Оценка качества поиска. Сплиты. Асессоры: https://habrahabr.ru/company/mailru/blog/329352/#lekciya-4-ocenka-kachestva-poiska-splity-asessory
[5] Ссылочное ранжирование: https://habrahabr.ru/company/mailru/blog/329352/#lekciya-5-ssylochnoe-ranzhirovanie
[6] Поведенческое ранжирование: https://habrahabr.ru/company/mailru/blog/329352/#lekciya-6-povedencheskoe-ranzhirovanie
[7] Машинное обучение в ранжировании. Часть 1: https://habrahabr.ru/company/mailru/blog/329352/#lekciya-7-mashinnoe-obuchenie-v-ranzhirovanii-chast-1
[8] Learning to Rank 2: https://habrahabr.ru/company/mailru/blog/329352/#lekciya-8-mashinnoe-obuchenie-v-ranzhirovanii-chast-2
[9] Поиск с использованием нейронных сетей: https://habrahabr.ru/company/mailru/blog/329352/#lekciya-9-poisk-s-ispolzovaniem-neyronnyh-setey
[10] Хитрые модели текстового ранжирования: https://habrahabr.ru/company/mailru/blog/329352/#lekciya-10-hitrye-modeli-tekstovogo-ranzhirovaniya
[11] Мультимедиа-поиск: https://habrahabr.ru/company/mailru/blog/329352/#lekciya-11-multimedia-poisk
[12] ссылке: https://www.youtube.com/playlist?list=PLrCZzMib1e9o7YIhOfJtD1EaneGOGkN-_
[13] Технострим: https://www.youtube.com/user/tpmgtu/videos
[14] Инфопоиск. Часть 1: https://habrahabr.ru/company/mailru/blog/329072/
[15] Программирование на Go: https://habrahabr.ru/company/mailru/blog/327966/
[16] Подготовительный курс «Алгоритмы и структуры данных»: https://habrahabr.ru/company/mailru/blog/316170/
[17] Введение в анализ данных: https://habrahabr.ru/company/mailru/blog/311694/
[18] недавней статье: https://habrahabr.ru/company/mailru/blog/328912/
[19] Источник: https://habrahabr.ru/post/329352/
Нажмите здесь для печати.