Рубрика «обработка естественного языка» - 3

Курс Natural Language Processing (обработка естественного языка)

2020-03-02 в 13:35, admin, рубрики: data mining, huawei, machine learning, machine translation, natural language processing, Блог компании Huawei, искусственный интеллект, курс, машинное обучение, обработка естественного языка

Всем привет!

Huawei Russian Research Institute (Huawei RRI) в рамках программы взаимодействия с ведущими российскими университетами (МФТИ, МГУ, МГТУ им. Н. Э. Баумана) представляет открытый курс “Natural Language Processing” или “Обработка естественного языка”, который пройдет на площадке московского корпуса Физтеха.

Курс Natural Language Processing (обработка естественного языка) - 1 Читать полностью »

Новый бесплатный онлайн-курс от Samsung по анализу текста при помощи нейросетей

2019-11-19 в 12:25, admin, рубрики: nlp (natural language processing), python, pytorch, Samsung, анализ текста, Блог компании Samsung, глубокое обучение, искусственный интеллект, лингвистика, машинное обучение, нейросети, обработка естественного языка, онлайн-курсы, Чат-боты

Мы привычно пользуемся интернет-поиском, общаемся с чат-ботами, читаем документы на любых языках благодаря переводчикам. Приказать роботу-пылесосу начать уборку при помощи голоса? Ничего особенного… Для многих голосовые помощники на смартфоне вошли в повседневность. Будущее, в котором компьютер, прочитав постороннюю заметку о футболе, соответствующим образом меняет тональность новости о погоде, уже наступило.

Как это всё работает? Как стать специалистом в NLP (расшифровывается Natural Language Processing, не путайте с нейролингвистическим программированием:) )?

Тех, кто задается такими вопросами, мы приглашаем на открывшийся недавно онлайн- курс Samsung Research Russia. Под катом подробности…
Новый бесплатный онлайн-курс от Samsung по анализу текста при помощи нейросетей - 1
Авторы курса “Нейронные сети и обработка текста”
Читать полностью »

Распознаём дату и время в естественной речи

2019-10-16 в 9:02, admin, рубрики: .net, C#, natural language processing, Алгоритмы, алиса, голосовой помощник, голосовые интерфейсы, дата и время, обработка естественного языка, яндекс

Распознаём дату и время в естественной речи - 1

Задача

Привет! Увлёкся я навыками для Алисы и стал думать, какую пользу они бы могли принести. На площадке много разных прикольных игр (в том числе мои), но вот захотелось сделать рабочий инструмент, который действительно нужен в голосовом исполнении, а не просто копирует существующего чат-бота с кнопками.

Голос актуален тогда, когда либо руки заняты, либо нужно выполнять много последовательных операций, особенно на экране телефона. Так возникла идея навыка, который по одной команде выделяет из текста указание на дату и время и добавляет событие с этим текстом в Google Calendar. Например, если пользователь скажет Послезавтра в 11 вечера будет красивый закат, то в календарь на послезавтра в 23:00 уходит строка Будет красивый закат.

Под катом описание алгоритма работы библиотеки Hors: распознавателя даты и времени в естественной русской речи. Хорс — это славянский бог солнца.

Github | NuGet

Читать полностью »

Анализ эмоциональной окраски отзывов с Кинопоиска

2019-09-11 в 19:21, admin, рубрики: natural language processing, nlp, NLTK, python, машинное обучение, обработка естественного языка, сентиментный анализ

Вступление

Обработка естественного языка (NLP) является популярной и важной областью машинного обучения. В данном хабре я опишу свой первый проект, связанный с анализом эмоциональной окраски кино отзывов, написанный на Python. Задача сентиментного анализа является довольно распространенной среди тех, кто желает освоить базовые концепции NLP, и может стать аналогом 'Hello world' в этой области.

В этой статье мы пройдем все основные этапы процесса Data Science: от создания собственного датасета, его обработки и извлечения признаков с помощью библиотеки NLTK и наконец обучения и настройки модели с помощью scikit-learn. Сама задача состоит в классификации отзывов на три класса: негативные, нейтральные и позитивные.
Читать полностью »

XLNet против BERT

2019-07-08 в 11:21, admin, рубрики: BERT, natural language processing, nlp, ods, open data science, python, XLNet, Блог компании Open Data Science, глубокое обучение, искусственный интеллект, машинное обучение, нейросети, обработка естественного языка, обработка текста

XLNet против BERT - 1

В конце июня коллектив из Carnegie Mellon University показал нам XLNet, сразу выложив публикацию, код и готовую модель (XLNet-Large, Cased: 24-layer, 1024-hidden, 16-heads). Это предобученная модель для решения разных задач обработки естественного языка.

В публикации они сразу же обозначили сравнение своей модели с гугловым BERT-ом. Они пишут, что XLNet превосходит BERT в большом количестве задач. И показывает в 18 задачах state-of-the-art результаты.
Читать полностью »

Основы Natural Language Processing для текста

2019-04-15 в 5:54, admin, рубрики: machine learning, nlp (natural language processing), python, Блог компании Voximplant, машинное обучение, обработка естественного языка, Программирование, распознавание текста

Обработка естественного языка сейчас не используются разве что в совсем консервативных отраслях. В большинстве технологических решений распознавание и обработка «человеческих» языков давно внедрена: именно поэтому обычный IVR с жестко заданными опциями ответов постепенно уходит в прошлое, чатботы начинают все адекватнее общаться без участия живого оператора, фильтры в почте работают на ура и т.д. Как же происходит распознавание записанной речи, то есть текста? А вернее будет спросить, что лежит в основе соврменных техник распознавания и обработки? На это хорошо отвечает наш сегодняшний адаптированный перевод – под катом вас ждет лонгрид, который закроет пробелы по основам NLP. Приятного чтения!

Основы Natural Language Processing для текста - 1

Читать полностью »

GPT-2 нейросеть от OpenAI. Быстрый старт

2019-02-16 в 21:04, admin, рубрики: gpt, GPT-2, nlp, OpenAI, искусственный интеллект, машинное обучение, нейронные сети, обработка естественного языка

Не успели отшуметь новости о нейросети BERT от Google, показавшей state-of-the-art результаты на целом ряде разговорных (NLP) задач в машинном обучении, как OpenAI выкатили новую разработку: GPT-2. Это нейронная сеть с рекордным на данный момент числом параметров (1.5 млрд, против обычно используемых в таких случаях 100-300 млн) оказалась способна генерировать целые страницы связного текста.

Генерировать настолько хорошо, что в OpenAI отказались выкладывать полную версию, опасаясь что эту нейросеть будут использовать для создания фейковых новостей, комментариев и отзывов, неотличимых от настоящих.

Тем не менее, в OpenAI выложили в общий доступ уменьшенную версию нейросети GPT-2, со 117 млн параметров. Именно ее мы запустим через сервис Google Colab и поэкспериментруем с ней.

Читать полностью »

BERT — state-of-the-art языковая модель для 104 языков. Туториал по запуску BERT локально и на Google Colab

2019-01-21 в 8:35, admin, рубрики: BERT, nlp, глубокое обучение, искусственный интеллект, машинное обучение, нейросети, обработка естественного языка, обработка текста

BERT — это нейронная сеть от Google, показавшая с большим отрывом state-of-the-art результаты на целом ряде задач. С помощью BERT можно создавать программы с ИИ для обработки естественного языка: отвечать на вопросы, заданные в произвольной форме, создавать чат-ботов, автоматические переводчики, анализировать текст и так далее.

Google выложила предобученные модели BERT, но как это обычно и бывает в Machine Learning, они страдают от недостатка документации. Поэтому в этом туториале мы научимся запускать нейронную сеть BERT на локальном компьютере, а также на бесплатном серверном GPU на Google Colab.

Читать полностью »

Чем занимаются в департаменте R&D ABBYY: NLP Advanced Research Group

2018-11-22 в 9:55, admin, рубрики: ABBYY, natural language processing, nlp, R&D, Блог компании ABBYY, лекция, машинное обучение, МФТИ, обработка естественного языка, саммаризация, синтаксический анализ, Школа глубокого обучения, эллипсис

Чем занимаются в департаменте R&D ABBYY: NLP Advanced Research Group - 1 Чем занимаются в департаменте R&D в ABBYY? Чтобы ответить на этот вопрос, мы начинаем серию публикаций о том, как наши разработчики создают новые технологии и совершенствуют существующие решения. Сегодня расскажем про направление Natural Language Processing (NLP).

Мы в ABBYY занимаемся исследованиями в сфере обработки естественного языка и беремся за сложные научные задачи, для которых пока нет готовых решений. Так мы создаем инновации, которые ложатся в основу продуктов и помогают нашим заказчикам, да и нам двигаться вперед. Кстати, 24 ноября на лекции в Школе глубокого обучения при МФТИ руководитель NLP Advanced Research Group в департаменте R&D ABBYY Иван Смуров расскажет, какие в мире есть задачи по анализу текста и как современные нейросети позволяют их решать. А в этом посте Иван рассказал нам о трех задачах, которыми занимается сейчас. Читать полностью »

Исправление опечаток, взгляд сбоку

2018-05-23 в 6:18, admin, рубрики: data mining, misspellings, nlp, python, word embedding, Блог компании Singularis, машинное обучение, обработка естественного языка, Семантика

Мы поговорим об использовании модных «Word embedding» не совсем по назначению — а именно для исправления опечаток (строго говоря, и ошибок тоже, но мы предполагаем, что люди грамотные и опечатываются). На хабре была довольно близкая статья, но здесь будет немного о другом.

Исправление опечаток, взгляд сбоку - 1
Визуализация Word2Vec модели, полученная студентом. Обучалась на «Властелине колец». Явно что-то на черном наречии.
Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «обработка естественного языка» - 3

Курс Natural Language Processing (обработка естественного языка)

Новый бесплатный онлайн-курс от Samsung по анализу текста при помощи нейросетей

Распознаём дату и время в естественной речи

Задача

Анализ эмоциональной окраски отзывов с Кинопоиска

Вступление

XLNet против BERT

Основы Natural Language Processing для текста

GPT-2 нейросеть от OpenAI. Быстрый старт

BERT — state-of-the-art языковая модель для 104 языков. Туториал по запуску BERT локально и на Google Colab

Чем занимаются в департаменте R&D ABBYY: NLP Advanced Research Group

Исправление опечаток, взгляд сбоку