Открытый вебинар «Наивный байесовский классификатор»

Всем привет!

В рамках нашего курса Data Scientist ^[1] мы провели открытый урок на тему «Наивный баейсовский классификатор». Занятие вёл преподаватель курса Максим Кретов ^[2] — ведущий исследователь в лаборатории нейронных сетей и глубокого обучения (МФТИ). Предлагаем ознакомиться с видео и кратким изложением.

Заранее спасибо.

Вступление

Представьте, что у вас есть тысяча объектов недвижимости. Как правило, каждый из них можно охарактеризовать определенным набором признаков, например:

площадь дома;
количество времени, прошедшее после последнего ремонта;
удаленность от ближайшей остановки общественного транспорта.

Таким образом каждый дом можно представить, как х с размерностью 3. То есть х = (150; 5; 600), где 150 – площадь дома в метрах квадратных, 5 — количество лет после ремонта, 600 — расстояние до остановки в метрах. Цена, за которую этот дом можно продать на рынке, будет обозначаться y.

В результате мы имеем набор векторов, причем каждому объекту соответствует переменная. И если говорить о цене, то как раз ее то и можно научиться предсказывать, обладая навыками машинного обучения.

Основная классификация методов машинного обучения

Рассмотренный выше пример довольно типичен и относится к машинному обучению с учителем (есть целевая переменная). Если же последняя отсутствует, можно говорить о машинном обучении без учителя. Это и есть два основных и наиболее распространенных вида машинного обучения. При этом задача обучения с учителем, в свою очередь, делится на две группы:

Классификация. Целевая переменная — это один из С-классов, т. е. каждому объекту дана метка класса (коттедж, садовый домик, хозпостройка и т. п.).
Регрессия. Целевая переменная — это действительное число.

Какие задачи решает машинное обучение?

Сегодня с помощью методов машинного обучения решаются следующие задачи:

1. Синтаксические:

разметка по частям речи и морфологическим признакам;
деление слов в тексте на морфемы (приставку, суффикс и пр.);
поиск имен и названий в тексте («распознавание именованных сущностей»);
разрешение смысла слов в заданном контексте (типичный пример — зАмок или замОк).

2. Задачи на понимание текста, в которых есть «учитель»:

машинный перевод;
диалоговые модели (чат-боты).

3. Прочие задачи (описание изображения, распознавание речи и т. д.).

Сложности работы с текстом

Работа с текстом с точки зрения машинного обучения всегда несет в себе определенные сложности. Для этого достаточно вспомнить два предложения:

мама мыла раму и теперь она блестит;
мама мыла раму и теперь она устала.

Если классификатор, выполняющий машинное обучение, не обладает здравым смыслом, для него одинаково верно, когда рама и блестит, и устала, так как синтаксически слово рама во втором предложении расположено ближе к местоимению она.

Практическое задание

После предоставления общеознакомительной информации о некоторых аспектах машинного обучения преподаватель плавно перешел к практической задаче вебинара — классификации электронных писем на спам и на качество.

В первую очередь, был показан пример, как преобразовать входной текст в вектор из чисел. Для этого:

был зафиксирован словарь размера К;
каждое слово в тексте было представлено в следующем виде: (0, 0, 0,…0, 1, 0,…0).

Такой подход называется 1-hot-encoding, а слова в его контексте — токенами.

По результатам этого этапа обработки данных был создан словарь и сделаны счетчики слов для каждого текста. В итоге был получен вектор фиксированной длины для каждого текста. Также был рассмотрен более простой подход boolean mask.

Знакомство с байесовским классификатором

Наивный байесовский классификатор основан на применении теоремы Байеса со строгими (наивными) предположениями о независимости. Его достоинством является малое количество данных для обучения, необходимых для оценки параметров, требуемых для классификации.
В интерпретации к задаче по классификации электронных писем основная идея заключалась в следующем:

все слова в тексте рассматриваются независимо друг от друга;
если какие-нибудь слова встречаются в спаме чаще, чем в хороших письмах, эти слова считаются признаками принадлежности письма к спаму.

С учетом теоремы Байеса были прописаны соответствующие формулы для нескольких переменных, а также рассмотрены особенности вычисления дополнительных допущений. Для расчета параметров был использован псевдокод, после этого — сформирован подробный модельный пример, где были рассчитаны априорные вероятности и вероятности принадлежности к классам для нового объекта х. Окончательный этап практической работы — построение и тренировка модели, а также измерение качества.

THE END

Как всегда мы ждём вопросы и комментарии тут или вы можете задать их преподавателю ^[2]напрямую, зайдя на день открытых дверей ^[3].

Автор: MaxRokatansky

Источник ^[4]

Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/data-mining/289838

Ссылки в тексте:

[1] курса Data Scientist: https://otus.pw/KIcY/

[2] преподаватель курса Максим Кретов: https://otus.pw/nGMo/

[3] день открытых дверей: https://otus.pw/DDdA/

[4] Источник: https://habr.com/post/420729/?utm_campaign=420729

Нажмите здесь для печати.