- PVSM.RU - https://www.pvsm.ru -
Всем привет!
В рамках нашего курса Data Scientist [1] мы провели открытый урок на тему «Наивный баейсовский классификатор». Занятие вёл преподаватель курса Максим Кретов [2] — ведущий исследователь в лаборатории нейронных сетей и глубокого обучения (МФТИ). Предлагаем ознакомиться с видео и кратким изложением.
Заранее спасибо.
Вступление
Представьте, что у вас есть тысяча объектов недвижимости. Как правило, каждый из них можно охарактеризовать определенным набором признаков, например:
Таким образом каждый дом можно представить, как х с размерностью 3. То есть х = (150; 5; 600), где 150 – площадь дома в метрах квадратных, 5 — количество лет после ремонта, 600 — расстояние до остановки в метрах. Цена, за которую этот дом можно продать на рынке, будет обозначаться y.
В результате мы имеем набор векторов, причем каждому объекту соответствует переменная. И если говорить о цене, то как раз ее то и можно научиться предсказывать, обладая навыками машинного обучения.
Основная классификация методов машинного обучения
Рассмотренный выше пример довольно типичен и относится к машинному обучению с учителем (есть целевая переменная). Если же последняя отсутствует, можно говорить о машинном обучении без учителя. Это и есть два основных и наиболее распространенных вида машинного обучения. При этом задача обучения с учителем, в свою очередь, делится на две группы:
Какие задачи решает машинное обучение?
Сегодня с помощью методов машинного обучения решаются следующие задачи:
1. Синтаксические:
2. Задачи на понимание текста, в которых есть «учитель»:
3. Прочие задачи (описание изображения, распознавание речи и т. д.).
Сложности работы с текстом
Работа с текстом с точки зрения машинного обучения всегда несет в себе определенные сложности. Для этого достаточно вспомнить два предложения:
Если классификатор, выполняющий машинное обучение, не обладает здравым смыслом, для него одинаково верно, когда рама и блестит, и устала, так как синтаксически слово рама во втором предложении расположено ближе к местоимению она.
Практическое задание
После предоставления общеознакомительной информации о некоторых аспектах машинного обучения преподаватель плавно перешел к практической задаче вебинара — классификации электронных писем на спам и на качество.
В первую очередь, был показан пример, как преобразовать входной текст в вектор из чисел. Для этого:
Такой подход называется 1-hot-encoding, а слова в его контексте — токенами.
По результатам этого этапа обработки данных был создан словарь и сделаны счетчики слов для каждого текста. В итоге был получен вектор фиксированной длины для каждого текста. Также был рассмотрен более простой подход boolean mask.
Знакомство с байесовским классификатором
Наивный байесовский классификатор основан на применении теоремы Байеса со строгими (наивными) предположениями о независимости. Его достоинством является малое количество данных для обучения, необходимых для оценки параметров, требуемых для классификации.
В интерпретации к задаче по классификации электронных писем основная идея заключалась в следующем:
С учетом теоремы Байеса были прописаны соответствующие формулы для нескольких переменных, а также рассмотрены особенности вычисления дополнительных допущений. Для расчета параметров был использован псевдокод, после этого — сформирован подробный модельный пример, где были рассчитаны априорные вероятности и вероятности принадлежности к классам для нового объекта х. Окончательный этап практической работы — построение и тренировка модели, а также измерение качества.
THE END
Как всегда мы ждём вопросы и комментарии тут или вы можете задать их преподавателю [2]напрямую, зайдя на день открытых дверей [3].
Автор: MaxRokatansky
Источник [4]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/data-mining/289838
Ссылки в тексте:
[1] курса Data Scientist: https://otus.pw/KIcY/
[2] преподаватель курса Максим Кретов: https://otus.pw/nGMo/
[3] день открытых дверей: https://otus.pw/DDdA/
[4] Источник: https://habr.com/post/420729/?utm_campaign=420729
Нажмите здесь для печати.