Рубрика «ner»

Извлечение троих: Как найти пасхалки в книгах Стивена Кинга с помощью NLP алгоритмов

2021-07-03 в 21:09, admin, рубрики: ner, nlp, python, Алгоритмы, Занимательные задачки, Лайфхаки для гиков, мультивселенная, Пасхалки, стивен кинг, Читальный зал

Предыстория

Которую вы можете пропустить, но не станете, верно?

Дело было за последней прочитанной мной книгой Стивена Кинга - "Томминокеры". В очередной раз скользнув по "еще одному американскому имени не очень-то главного героя", я вдруг задумалась: "А что, если имя, которое я даже толком не прочитала, было важным? Что, если это имя персонажа другой уже прочитанной мной истории? Что, если из-за того что я, среднестатистический человек в пятницу вечером, не держу в голове целый город (или даже штат) имен всех персонажей, я упускаю детали мира дядюшки Кинга?" Стало немного-невыносимо больно за возможные утраченные пасхалки.

Читать полностью »

Визуализация новостей рунета

2019-08-01 в 12:05, admin, рубрики: bigartm, data mining, machine learning, natural language processing, ner, nlp, open source, Блог компании Open Data Science, визуализация данных, машинное обучение, Новости

Визуализация новостей рунета - 1

Представьте себе, что вы поспорили с друганом, что было раньше — ~~курица или яйцо~~ повышение какого-то налога, к примеру, или новости на эту тему, или вовсе важное событие заглушили тучей новостей про новую песню, скажем, Киркорова. Удобно было бы посчитать, сколько новостей на каждую тему было в каждый конкретный момент времени, а потом наглядно это представить. Собственно, этим и занимается проект “радар новостей рунета”. Под катом мы расскажем, при чём здесь машинное обучение и как любой доброволец может в этом поучаствовать.

Читать полностью »

NLP. Основы. Техники. Саморазвитие. Часть 2: NER

2019-05-14 в 12:07, admin, рубрики: ABBYY, machine learning, natural language processing, ner, RNN, Блог компании ABBYY, искусственный интеллект, машинное обучение, нейронные сети, нейросети, токены, эмбеддинги

Первую часть статьи об основах NLP можно прочитать здесь. А сегодня мы поговорим об одной из самых популярных задач NLP – извлечении именованных сущностей (Named-entity recognition, NER) – и разберем подробно архитектуры решений этой задачи.

Читать полностью »

Распознавание дат, написанных естественным языком, средствами Python3

2019-04-23 в 14:06, admin, рубрики: legaltech, ner, nlp (natural language processing), python, python3

Мы в компании создаем сервис, который извлекает юридические факты из переписки клиента и заказчика. Сервис вырос из одной простой идеи — мои постоянные клиенты из решили упросить работу менеджерам и создать “генератор договоров”. Первую задачу — подтягивать в договор реквизиты клиента и заказчика мы решили легко.

Появилась вторая идея — искать в переписке даты и вставлять их в техническое задание, документы, автоматически.

Однако, люди редко пишут в чатах и мессенджерах даты так, чтобы их легко мог распознать алгоритм.
Читать полностью »

Как научить машину понимать инвойсы и извлекать из них данные

2019-02-19 в 12:44, admin, рубрики: ABBYY, data augmentation, LSTM, machine learning, ner, ocr, Блог компании ABBYY, высокая производительность, документы, извлечение данных, инвойсы, искусственный интеллект, машинное обучение, нейронные сети, технологии

Как научить машину понимать инвойсы и извлекать из них данные - 1 Привет! Меня зовут Станислав Семенов, я работаю над технологиями извлечения данных из документов в R&D ABBYY. В этой статье я расскажу об основных подходах к обработке полуструктурированных документов (инвойсы, кассовые чеки и т.д.), которые мы использовали совсем недавно и которые используем прямо сейчас. А еще мы поговорим о том, насколько для решения этой задачи применимы методы машинного обучения.
Читать полностью »

NLP. Основы. Техники. Саморазвитие. Часть 1

2019-01-23 в 13:05, admin, рубрики: ABBYY, machine learning, natural language processing, ner, nlp (natural language processing), RNN, Блог компании ABBYY, машинное обучение, нейронные сети, нейросети, саммаризация

Привет! Меня зовут Иван Смуров, и я возглавляю группу исследований в области NLP в компании ABBYY. О том, чем занимается наша группа, можно почитать здесь. Недавно я читал лекцию про Natural Language Processing (NLP) в Школе глубокого обучения – это кружок при Физтех-школе прикладной математики и информатики МФТИ для старшеклассников, интересующихся программированием и математикой. Возможно, тезисы моей лекции кому-то пригодятся, поэтому поделюсь ими с Хабром.

Поскольку за один раз все объять не получится, разделим статью на две части. Сегодня я расскажу о том, как нейросети (или глубокое обучение) используются в NLP. Во второй части статьи мы сконцентрируемся на одной из самых распространенных задач NLP — задаче извлечения именованных сущностей (Named-entity recognition, NER) и разберем подробно архитектуры ее решений.

NLP. Основы. Техники. Саморазвитие. Часть 1 - 1

Читать полностью »

Алиса поможет разработчикам найти объекты в запросах пользователей. NER в Диалогах

2018-10-05 в 7:06, admin, рубрики: api, ner, алиса, Блог компании Яндекс, диалоги, интерфейсы, искусственный интеллект, навыки, разработка мобильных приложений, распознавание именованных сущностей, яндекс

Весной мы запустили платформу Диалоги, которая позволяет создавать навыки для Алисы и распознавать голосовые запросы пользователей. Изначально разработчикам навыков приходилось разбирать запросы самостоятельно. К примеру, находить адрес в тексте. Теперь эту часть работы платформа берёт на себя.

Сегодня мы расскажем читателям Хабра о распознавании именованных сущностей (Named-entity recognition; NER) и новых возможностях для разработчиков навыков.

Алиса поможет разработчикам найти объекты в запросах пользователей. NER в Диалогах - 1

Мы верим, что будущее за голосовыми интерфейсами. Уже сейчас во многих случаях пользователи предпочитают использовать голос, а не экранную клавиатуру. Например, при управлении автомобилем. Или для поиска быстрых ответов на простые вопросы. Или для игры в «города» лёжа на диване. Но чтобы таких сценариев становилось всё больше, простого распознавания голоса в текст недостаточно.

Читать полностью »

Наташа — библиотека для извлечения структурированной информации из текстов на русском языке

2018-03-14 в 13:12, admin, рубрики: big data, data mining, ner, nlp, python, yargy, машинное обучение, наташа

Есть стандартная задача извлечения именованных сущностей из текста (NER). На входе текст, на выходе структурированные, нормализованные объекты, например, с именами, адресами, датами:

Наташа — библиотека для извлечения структурированной информации из текстов на русском языке - 1

Задача старая и хорошо изученная, для английского языка существует масса коммерческих и открытых решений: Spacy, Stanford NER, OpenNLP, NLTK, MITIE, Google Natural Language API, ParallelDots, Aylien, Rosette, TextRazor. Для русского тоже есть хорошие решения, но они в основном закрытые: DaData, Pullenti, Abbyy Infoextractor, Dictum, Eureka, Promt, RCO, AOT, Ahunter. Из открытого мне известен только Томита-парсер и свежий Deepmipt NER.

Я занимаюсь анализом данных, задача обработки текстов одна из самых частых. На практике оказывается, что, например, извлечь имена из русского текста совсем непросто. Есть готовое решение в Томита-парсере, но там неудобная интеграция с Питоном. Недавно появилось решение от ребят из iPavlov, но там имена не приводятся к нормальной форме. Для извлечения, например, адресов («ул. 8 Марта, д.4», «Ленинский проезд, 15») открытых решений мне не известно, есть pypostal, но он чтобы парсить адреса, а не искать их в тексте. C нестандартными задачами типа извлечения ссылок на нормативные акты («ст. 11 ГК РФ», «п. 1 ст. 6 Закона № 122-ФЗ») вообще непонятно, что делать.

Год назад Дима Веселов начал проект Наташа. С тех пор код был значительно доработан. Наташа была использована в нескольких крупных проектах. Сейчас мы готовы рассказать о ней пользователям Хабра.

Наташа — это аналог Томита-парсера для Питона (Yargy-парсер) плюс набор готовых правил для извлечения имён, адресов, дат, сумм денег и других сущностей.

В статье показано, как использовать готовые правила Наташи и, самое главное, как добавлять свои с помощью Yargy-парсера.
Читать полностью »

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «ner»

Извлечение троих: Как найти пасхалки в книгах Стивена Кинга с помощью NLP алгоритмов

Предыстория

Визуализация новостей рунета

NLP. Основы. Техники. Саморазвитие. Часть 2: NER

Распознавание дат, написанных естественным языком, средствами Python3

Как научить машину понимать инвойсы и извлекать из них данные

NLP. Основы. Техники. Саморазвитие. Часть 1

Алиса поможет разработчикам найти объекты в запросах пользователей. NER в Диалогах

Наташа — библиотека для извлечения структурированной информации из текстов на русском языке

Архив

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «ner»

Предыстория

Новости

Актуальные темы

Архив