Модель fastText — одно из самых эффективных векторных представлений слов для русского языка. Однако её прикладная польза страдает из-за внушительных (несколько гигабайт) размеров модели. В этой статье мы показываем, как можно уменьшить модель fastText с 2.7 гигабайт до 28 мегабайт, не слишком потеряв в её качестве (3-4%). Спойлер: квантизация и отбор признаков работают хорошо, а матричные разложения — не очень. Также мы публикуем пакет на Python для этого сжатия и пример компактной модели для русских слов.
Рубрика «эмбеддинги»
Применение сиамских нейросетей в поиске
2019-09-20 в 8:39, admin, рубрики: natural language processing, nlp (natural language processing), Блог компании Mail.Ru Group, машинное обучение, нейронные сети, поисковые системы, поисковые технологии, Семантика, сиамские нейросети, эмбеддинги
Всем привет! В этом посте я расскажу, какие подходы мы в Поиске Mail.ru используем для сравнения текстов. Для чего это нужно? Как только мы научимся хорошо сравнивать разные тексты друг с другом, поисковая система сможет лучше понимать запросы пользователя.
Что нам для этого нужно? Для начала строго поставить задачу. Нужно определить для себя, какие тексты мы считаем похожими, а какие не считаем и затем сформулировать стратегию автоматического определения схожести. В нашем случае будут сравниваться тексты пользовательских запросов с текстами документов.
Читать полностью »
NLP. Основы. Техники. Саморазвитие. Часть 2: NER
2019-05-14 в 12:07, admin, рубрики: ABBYY, machine learning, natural language processing, ner, RNN, Блог компании ABBYY, искусственный интеллект, машинное обучение, нейронные сети, нейросети, токены, эмбеддингиПервую часть статьи об основах NLP можно прочитать здесь. А сегодня мы поговорим об одной из самых популярных задач NLP – извлечении именованных сущностей (Named-entity recognition, NER) – и разберем подробно архитектуры решений этой задачи.
Где и как врубиться в эмбеддинги графов
2018-09-25 в 11:00, admin, рубрики: graphSAGE, it-рекрутмент, neo4j, node2vec, pagerank, python, SAP HANA, snap, Алгоритмы, Блог компании Open Data Science, глубокое обучение, графовые сверточные сети, графы, командообразование, математика, машинное обучение, образование за рубежом, развлечения в интернете, рекомендательные системы, самообразование, Управление продуктом, управление проектами, эмбеддингиПривет!
Три года назад на сайте Леонида Жукова я ткнул ссылку на курс Юре Лесковека cs224w Analysis of Networks и теперь мы будем его проходить вместе со всеми желающими в нашем уютном чате в канале #class_cs224w. Cразу же после разминки с открытым курсом машинного обучения, который начнётся через несколько дней.
Вопрос: Что там начитывают?
Ответ: Современную математику. Покажем на примере улучшения процесса IT-рекрутинга.
Под катом читателя ждёт история о том, как руководителя проектов дискретная математика до нейросетей довела, почему внедряющим ERP и управляющим продуктами стоит почитывать журнал Биоинформатика, как появилась и решается задача рекомендации связей, кому нужны графовые эмбеддинги и откуда взялись, а также мнение о том, как перестать бояться вопросов про деревья на собеседованиях, и чего всё это может стоить. Погнали!Читать полностью »