Рубрика «BERT»

RuModernBERT и USER2: эволюция русскоязычных энкодеров - 1

Привет!

В прошлом году одним из направлений работы R&D команды в AI VK были энкодеры текстов:Читать полностью »

Глубокое обучение гламурно и ажиотажно. Если обучить трансформер (современную языковую модель) на датасете из 22 миллионов ферментов, а затем использовать его для прогнозирования функции 450 неизвестных ферментов, то можно опубликовать свои результаты Nature Communications (уважаемом научном издании). Вашу статью прочитают 22 тысяч раз и она будет в верхних 5% из всех результатов исследований по оценке Altmetric (рейтингу внимания к онлайн-статьям).

Читать полностью »

История развития языковых моделей: ч. 2, от ChatGPT до рассуждающего режима - 1

Доброго времени суток, «Хабр»!

Читать полностью »

ModernBERT — новое поколение двунаправленного кодировщика, сочетающее в себе обработку длинных последовательностей, понимание кода и эффективные вычисления. 🌟

Введение 📜

BERT был выпущен в 2018 году, но он до сих пор широко используется. Фактически, это вторая по популярности модель на Hugging Face Hub с ежемесячными загрузками более 68 миллионов раз! 🚀 Это связано с тем, что его архитектура, предназначенная только для кодирования, делает его идеальным для множества реальных задач, таких как:

Русский Маскарад — применение NER для защиты персональных данных - 1

Всем привет! 

На связи команда хакатонщиков “Старые Бауманцы” и я - Саша Зазнобин. 

Читать полностью »

Сколько раз вы были свидетелями судейства на хакатонах, которое, на первый взгляд, казалось неверным? Думаем, таких случаев было много.

Сегодня мы посмотрим на результаты AI Product Hack и постараемся разобраться в том, кто после присуждения мест оказался прав: раздосадованные поражением участники команд или судьи.

В частности мы будем рассматривать кейс компании Raft - “Мониторинг токсичного контента в AI-продуктах”. 

Читать полностью »

Для того, чтобы распознавать естественную человеческую речь, используют специальные модели — языковые. Они умеют воспринимать содержание текста, продолжать предложения и вести осмысленный диалог.

Вместе с дата-сайентистом и биоинформатиком Марией Дьяковой подготовили подробный гайд о том, как устроены самые популярные языковые модели и что нужно знать, чтобы начать с ними работать.

Семантический поиск (homemade) - 1

Основой семантического поиска может являться ML задача Sentence Similarity, а если быть еще конкретнее, то это Semantic Textual Similarity. Модели, обученные под эту задачу, способны оценивать насколько близки предложения по своему смыслу. Всё, что нам дальше остается, так это засунуть модель в некоторую поисковую систему, но тут давайте по порядку.

Читать полностью »

Обучение Russian SuperGLUE моделей с помощью библиотеки DeepPavlov - 1

Соревнования GLUE и SuperGLUE

В последние годы соревнования GLUE и SuperGLUEЧитать полностью »

Умные субтитры - 1

Сегодня я вам расскажу о своем методе для изучения иностранных языков.

С чего начать изучение нового языка? Чаще всего люди на раннем этапе используют стандартный лексико-грамматический метод с доминированием письменного языка, который показал себя медленным и весьма скучным — вам чаще всего нужна зашкаливающая мотивация, чтобы не бросить где-то посередине.

Я предлагаю начать сразу с видео:


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js