Существует огромное количество алгоритмов кластеризации. Основная идея большинства из них – объединить одинаковые последовательности в один класс или кластер на основе сходства. Как правило, выбор алгоритма определяется поставленной задачей. Что касается текстовых данных, то здесь сравниваемыми составляющими служат последовательности слов и их атрибутов (например, вес слова в тексте, тип именованной сущности, тональность и пр.). Таким образом, тексты изначально преобразуются в вектора, с которыми производят разного типа манипуляции. При этом, как правило, возникает ряд проблем, связанных с: выбором первичных кластеров, зависимостью качества кластеризации от длины текста, определением общего количества кластеров и т.п. Но наиболее сложной проблемой является отсутствие связи между близкими по смыслу текстами, в которых используется разная лексика. В таких случаях объединение должно происходить не только на основе сходства, а еще и на основе семантической смежности или ассоциативности.

Читать полностью »
Рубрика «word2vec» - 3
Кластеризация текстовых документов по семантическим признакам (часть первая: описание алгоритма)
2017-03-22 в 20:32, admin, рубрики: data mining, word2vec, Алгоритмы, кластеризация, машинное обучение, обработка текста, Семантика, метки: word2vecWord2Vec в примерах
2015-01-29 в 13:38, admin, рубрики: data mining, word2vec, Поисковые машины и технологии, Семантика Волею судеб в мои руки попал обученный на поисковых запросах Word2Vec. Под катом даны примеры использования с пояснениями.
Читать полностью »
