Всем привет! Меня зовут Роман Соломатин, я представляю команду AI-Run из X5 Tech, мы занимаемся генеративными сетями в целом и языковыми моделями в частности. Несколько месяцев назад русскоязычное сообщество разработчиков искусственного интеллекта получило инструмент для оценки моделей — бенчмарк ruMTEB (Massive Text Embedding Benchmark). Он предназначен для оценки репрезентации русскоязычных текстов и позволяет объективно сравнивать различные эмбеддинговые модели, которые превращают текст в вектора чисел, ориентированные на работу с русским языком (Читать полностью »
Рубрика «эмбеддинги»
Размерность Минковского и Two Nearest Neighbours (TwoNN)
2024-09-10 в 20:11, admin, рубрики: облака точек, размерность, топологический анализ данных, эмбеддингиВ этой статье я кратко изложу абстрактную идею того, что такое внутренняя размерность геометрической фигуры, попутно введя один из вариантов размерности Минковского, а затем расскажу про другой, приблизительный способ оценки внутренней размерности, который применим к реальным (то есть, конечным) облакам точек и называется Two Nearest Neighbours (TwoNN). В конце статьи для интересующихся будут оставлены ссылки на несколько научных статей, в которых второй способ используется для анализов эмбеддингов нейросетей.
Итак, давайте разбираться!
Размерность Минковского
Что можно узнать из текста в телеграмм-канале?
2024-08-19 в 18:16, admin, рубрики: nlp, анализ данных, анализ данных python, данные, кластер, машинное обучение, текст, тематическое моделирование, эмбеддингиПривет!
Два года назад я создал телеграмм-канал и начал постить туда всякое, что считал интересным. Изначально это было что-то вроде публичного дневника с регулярными и короткими заметками из моей студенческой жизни. После, я попробовал превратить этот канал в блог о современном искусстве, ну а пару месяцев назад понял, что не могу жить без любимой айтишечки и начал постить в канал новости из мира Data Science и ИИ.
Лучше 170 раз услышать: как GPT-4o кодирует изображения?
2024-08-15 в 11:02, admin, рубрики: gpt-4, gpt-4o, gpt-4v, OpenAI, эмбеддингиИнтересный факт: GPT-4o взимает по 170 токенов за обработку каждого тайла 512x512
, используемого в режиме высокого разрешения. При соотношении примерно 0,75 токенов на слово можно предположить, что картинка стоит примерно 227 слов, что всего в четыре раза меньше, чем в поговорке «картинка стоит тысячи слов».
Применение сиамских нейросетей в поиске
2019-09-20 в 8:39, admin, рубрики: natural language processing, nlp (natural language processing), Блог компании Mail.Ru Group, машинное обучение, нейронные сети, поисковые системы, поисковые технологии, Семантика, сиамские нейросети, эмбеддинги
Всем привет! В этом посте я расскажу, какие подходы мы в Поиске Mail.ru используем для сравнения текстов. Для чего это нужно? Как только мы научимся хорошо сравнивать разные тексты друг с другом, поисковая система сможет лучше понимать запросы пользователя.
Что нам для этого нужно? Для начала строго поставить задачу. Нужно определить для себя, какие тексты мы считаем похожими, а какие не считаем и затем сформулировать стратегию автоматического определения схожести. В нашем случае будут сравниваться тексты пользовательских запросов с текстами документов.
Читать полностью »
NLP. Основы. Техники. Саморазвитие. Часть 2: NER
2019-05-14 в 12:07, admin, рубрики: ABBYY, machine learning, natural language processing, ner, RNN, Блог компании ABBYY, искусственный интеллект, машинное обучение, нейронные сети, нейросети, токены, эмбеддингиПервую часть статьи об основах NLP можно прочитать здесь. А сегодня мы поговорим об одной из самых популярных задач NLP – извлечении именованных сущностей (Named-entity recognition, NER) – и разберем подробно архитектуры решений этой задачи.
Где и как врубиться в эмбеддинги графов
2018-09-25 в 11:00, admin, рубрики: graphSAGE, it-рекрутмент, neo4j, node2vec, pagerank, python, SAP HANA, snap, Алгоритмы, Блог компании Open Data Science, глубокое обучение, графовые сверточные сети, графы, командообразование, математика, машинное обучение, образование за рубежом, развлечения в интернете, рекомендательные системы, самообразование, Управление продуктом, управление проектами, эмбеддингиПривет!
Три года назад на сайте Леонида Жукова я ткнул ссылку на курс Юре Лесковека cs224w Analysis of Networks и теперь мы будем его проходить вместе со всеми желающими в нашем уютном чате в канале #class_cs224w. Cразу же после разминки с открытым курсом машинного обучения, который начнётся через несколько дней.
Вопрос: Что там начитывают?
Ответ: Современную математику. Покажем на примере улучшения процесса IT-рекрутинга.
Под катом читателя ждёт история о том, как руководителя проектов дискретная математика до нейросетей довела, почему внедряющим ERP и управляющим продуктами стоит почитывать журнал Биоинформатика, как появилась и решается задача рекомендации связей, кому нужны графовые эмбеддинги и откуда взялись, а также мнение о том, как перестать бояться вопросов про деревья на собеседованиях, и чего всё это может стоить. Погнали!Читать полностью »