Рубрика «glove»

Автоматическое определение эмоций в текстовых беседах с использованием нейронных сетей

2019-08-12 в 12:12, admin, рубрики: big data, data mining, emocontext, emotion detection, FastText, glove, keras, LSTM, python, semeval, semeval-2019, TensorFlow, word embeddings, word2vec, Блог компании Mail.Ru Group, векторное представление слов, долгая краткосрочная память, машинное обучение, рекуррентная нейронная сеть

Одна из основных задач диалоговых систем состоит не только в предоставлении нужной пользователю информации, но и в генерации как можно более человеческих ответов. А распознание эмоций собеседника – уже не просто крутая фича, это жизненная необходимость. В этой статье мы рассмотрим архитектуру рекуррентной нейросети для определения эмоций в текстовых беседах, которая принимала участие в SemEval-2019 Task 3 “EmoContext”, ежегодном соревновании по компьютерной лингвистике. Задача состояла в классификации эмоций (“happy”, “sad”, “angry” и “others”) в беседе из трех реплик, в которой участвовали чат-бот и человек.

В первой части статьи мы рассмотрим поставленную в EmoContext задачу и предоставленные организаторами данные. Во второй и третьей частях разберём предварительную обработку текста и способы векторного представления слов. В четвёртой части мы опишем архитектуру LSTM, которую мы использовали в соревновании. Код написан на языке Python с использованием библиотеки Keras.
Читать полностью »

Всё, что вы знали о word2vec, неправда

2019-06-05 в 11:35, admin, рубрики: gensim, glove, Skip-gram, word2vec, Алгоритмы, машинное обучение, случайная инициализация

Классическое объяснение word2vec как архитектуры Skip-gram с отрицательной выборкой в оригинальной научной статье и бесчисленных блог-постах выглядит так:

while(1) {
   1. vf = vector of focus word
   2. vc = vector of focus word
   3. train such that (vc . vf = 1)
   4. for(0 <= i <= negative samples):
           vneg = vector of word *not* in context
           train such that (vf . vneg = 0)
}

Действительно, если погуглить [word2vec skipgram], что мы видим:

Но все эти реализации ошибочны.
Читать полностью »

Как без особенных усилий создать ИИ-расиста

2019-01-17 в 14:48, admin, рубрики: ConceptNet Numberbatch, glove, matplotlib, numpy, pandas, python, scikit-learn, scipy, seaborn, word2vec, анализ тональности, дерево синтаксического анализа, искусственный интеллект, классификатор, машинное обучение, сентимент-анализ

Предостерегающий урок.

Сделаем классификатор тональности!

Анализ тональности (сентимент-анализ) — очень распространённая задача в обработке естественного языка (NLP), и это неудивительно. Для бизнеса важно понимать, какие мнения высказывают люди: положительные или отрицательные. Такой анализ используется для мониторинга социальных сетей, обратной связи с клиентами и даже в алгоритмической биржевой торговле (в результате боты покупают акции Berkshire Hathaway после публикации положительных отзывов о роли Энн Хэтэуэй в последнем фильме).

Метод анализа иногда слишком упрощён, но это один из самых простых способов получить измеримые результаты. Просто подаёте текст — и на выходе положительные и отрицательные оценки. Не нужно разбираться с деревом синтаксического анализа, строить граф или какое-то другое сложное представление.
Читать полностью »

Чудесный мир Word Embeddings: какие они бывают и зачем нужны?

2017-07-17 в 11:03, admin, рубрики: data mining, glove, nlp, opendatascience, python, SVD, word2vec, Блог компании Open Data Science, машинное обучение, поисковые технологии

Начать стоит от печки, то есть с постановки задачи. Откуда берется сама задача word embedding?
Лирическое отступление: К сожалению, русскоязычное сообщество еще не выработало единого термина для этого понятия, поэтому мы будем использовать англоязычный.
Сам по себе embedding — это сопоставление произвольной сущности (например, узла в графе или кусочка картинки) некоторому вектору.

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «glove»

Автоматическое определение эмоций в текстовых беседах с использованием нейронных сетей

Всё, что вы знали о word2vec, неправда

Как без особенных усилий создать ИИ-расиста

Чудесный мир Word Embeddings: какие они бывают и зачем нужны?