Рубрика «обработка естественного языка»

1. Введение

В предыдущих статьях мы рассмотрели теоретические основы NLP, включая базовые понятия, такие как токенизация, стемминг, лемматизация и другие. Мы также поработали с библиотеками NLTK и spaCy и выполнили простые задания по обработке текста.

В этой статье мы продолжим изучение NLP и перейдем к более продвинутым темам, которые являются главными для построения современных приложений и моделей в области обработки естественного языка. А также создадим и обучим модели самостоятельно, используя TensorFlow/Keras и PyTorch.

Читать полностью »

1. Введение

В прошлой статье мы с вами изучили теоретические основы обработки естественного языка (NLP) и теперь готовы перейти к практике. В мире NLP выбор подходящего языка программирования и инструментов играет ключевую роль в успешной реализации проектов. Одним из наиболее популярных языков для решения задач в этой области является Python. Его простота, читаемость и поддержка мощных библиотек делают его идеальным выбором для разработчиков.

Читать полностью »

Введение в NLP

Представьте, что вы можете разговаривать с компьютером так же естественно, как с обычным человеком. Вы задаёте вопросы, получаете ответы, даёте команды - и это всё на вашем родном языке. Именно этим и занимается обработка естественного языка (Natural Language Proccessing, или NLP) - область искусственного интеллекта, которая фокусируется на взаимодействии между компьютерами и людьми с помощью естественного языка.

Читать полностью »

VALL-E 2: Нейронные кодировочные языковые модели являются синтезаторами речи с человеческим уровнем в zero-shot - 1

Введение

VALL-E 2, последнее достижение в области нейронных кодировочных языковых моделей, которое стало вехой в синтезе речи в zero-shot, достигнув человеческого уровня впервые. Zero-shotЧитать полностью »

На связи группа фундаментальных исследований MTS AI. В этой статье мы расскажем про дроп трех маленьких моделей Cotype-Nano, Cotype-Nano-4bit и Cotype-Nano-CPU. Расскажем, как нам удалось достичь 1 места на RuGeneralArena  в своей весовой категории.

Как мы создали LLM-модель Cotype Nano - 1

Почему мы решили создать маленькие LLM

Читать полностью »

Выбор проекта

Все началось осенью 2017 года, тогда у нас уже был опыт разработки веб-приложений. Искали проект, удовлетворяющий следующим условиям:

  1. Можно сделать небольшой командой.

  2. Проверенная идея и большой потенциал роста.

  3. Понимание как сделать лучше.

  4. Оптимальное время разработки и выход на самоокупаемость.

  5. Отсутствие проблем с правообладателями и законом.

Остановились на выборе проекта по созданию контекстного переводчика, потому что в тот момент он подходил нам по всем параметрам:

  1. Команда у нас тогда уже была. 

  2. Читать полностью »

Для того, чтобы распознавать естественную человеческую речь, используют специальные модели — языковые. Они умеют воспринимать содержание текста, продолжать предложения и вести осмысленный диалог.

Вместе с дата-сайентистом и биоинформатиком Марией Дьяковой подготовили подробный гайд о том, как устроены самые популярные языковые модели и что нужно знать, чтобы начать с ними работать.

Семантический поиск (homemade) - 1

Основой семантического поиска может являться ML задача Sentence Similarity, а если быть еще конкретнее, то это Semantic Textual Similarity. Модели, обученные под эту задачу, способны оценивать насколько близки предложения по своему смыслу. Всё, что нам дальше остается, так это засунуть модель в некоторую поисковую систему, но тут давайте по порядку.

Читать полностью »

RuGPT3 - коллекция генеративных моделей от Сбер
Проводим автоматическое тестирование циклическим перебором вариантов

RuGPT3. Исследование вариантов циклическим перебором - 1

Работаем в Colab, тестируем Small, Mediub, Large.
Параметры генерации совершенно неоптимизированы - это первый заход, чтобы посмотреть исходную ситуацию и сравнивать по мере улучшения.
Читать полностью »

Привет. Прошло уже почти полгода как я сделал новостной агрегатор каналов в Телеграме с открытым исходным кодом. Краткую статью про него можно прочитать на VC. Здесь же я бы хотел поделиться некоторыми интересными вещами, которые я нашёл в данных за всё время работы агрегатора.

Читать полностью »

https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js