Метка «natural language processing»

8-я Российская летняя школа по информационному поиску (RuSSIR 2014) пройдет в августе в Нижнем Новгороде. Традиционно сильная научная программа, веселые вечеринки, спортивные состязания и речные прогулки «после уроков», уникальное место встречи ученых с мировым именем, студентов и представителей интернет-индустрии. Дополнительная тема этого года – пользовательские интерфейсы и визуализация данных. Участие в школе бесплатное, заявки принимаются до конца июня.

image

Читать полностью »

В докладе рассказывается о том, как мы извлекаем сущности (например, имена людей и географические названия) из текстов и запросов. А также об извлечении фактов, т.е. связей между объектами. Мы рассмотрим несколько подходов к решению этих задач: формулирование правил, составление словарей всевозможных объектов, машинное обучение.

Лекция рассчитана на старшеклассников — студентов Малого ШАДа, но и взрослые смогут с ее помощью восполнить некоторые пробелы.

Читать полностью »

Natural Language Processing — область, которая становится все популярнее и популярнее в Росссии. Но отдельных ресурсов, посвященных этой теме, в рунете практически нет. Полгода назад на Хабре представляли NLPub, каталог ресурсов по компьютерной лингвистике. Но что делать, если хочешь читать новости? Можно попробовать начать с блога mathlingvo.ru

image

Читать полностью »

В далеком 2009 году на хабре уже была статья "Кузявые ли бутявки.." про pymorphy — морфологический анализатор для русского языка на Python (штуковину, которая умеет склонять слова, сообщать информацию о части речи, падеже и т.д.)

В 2012м я начал потихоньку делать pymorphy2 (github, bitbucket) — думаю, самое время представить эту библиотеку тут: pymorphy2 может работать в сотни раз быстрее, чем pymorphy (втч без использования C/C++ расширений) и при этом требовать меньше памяти; там лучше словари, лучше качество разбора, лучше поддержка буквы ё, проще установка и более «честный» API. Из негатива — не все возможности pymorphy сейчас реализованы в pymorphy2.

Эта статья о том, как pymorphy2 создавался (иногда с довольно скучными техническими подробностями), и сколько глупостей я при этом наделал; если хочется просто все попробовать, то можно почитать документацию.

Читать полностью »

Можешь выбрать подходящую к заголовку поста картинку?

«Он видел их семью своими глазами»

Тогда научи робота! Он тоже хочет.

Команда проекта Открытый корпус просит хабралюдей помочь разметить свободно доступный (CC-BY-SA) корпус текстов. Под катом мы расскажем о том, что такое корпус, зачем он нужен, как обстоят дела с корпусами в России и за рубежом, почему так плохо и какой у нас план.

Читать полностью »

Последнее время на Хабре зачастили статьи про обработку естественного языка.
И так уж совпало, что последнее время я работаю в этой области.
Был очень хорошо освещен sentiment analysis, и теггер частей речи pymorphy.
Но мне хотелось бы рассказать, какие средства для NLP использовал я, и что я нашел нового, чего здесь еще не было
Читать полностью »

Обучаем компьютер чувствам (sentiment analysis по русски)

Sentiment analysis (по-русски, анализ тональности) — это область компьютерной лингвистики, которая занимается изучением мнений и эмоций в текстовых документах. Недавно на хабре появилась статья про использование машинного обучения для анализа тональности, однако, она была настолько плохо составлена, что я решил написать свою версию. Итак, в этой статье я постараюсь доступно объяснить, что такое анализ тональности, и как реализовать подобную систему для русского языка.
Читать полностью »

Парсим русский язык
В прошлый раз (почти год назад) мы определяли части речи в русском тексте, производили морфологический анализ слов. В этой статье мы пойдем на уровень выше, к синтаксическому анализу целых предложений.

Наша цель заключается в создании парсера русского языка, т.е. программы, которая на вход бы принимала произвольный текст, а на выходе выдавала бы его синтаксическую структуру. Например, так:

"Мама мыла раму":

(предложение
    (именная гр. (сущ мама))
    (глаг. гр. (глаг мыла)
        (именная гр. (сущ раму)))
    (. .)))

Это называется синтаксическим деревом предложения. В графическом виде его можно представить следующим образом (в упрощенном виде):
Парсим русский язык
Читать полностью »

26 мая в субботу в Санкт-Петербурге пройдет конференция AINL: Искуственный интеллект и естественный язык. На однодневной конференции будут представленны 25 докладов ведущих специалистов в области автоматической обработки естественного языка и искусственного интлеллекта.

Программа поделена на 7 секций:
— Искуственный Интеллект
— Речевые технологии
— Управление знаниями
— Text mining
— Лингвистические технологии
— Машинный перевод
— Интернет-технологии

Основной фокус конференции: онтологическое представление знаний, диалоговые системы, речевые технологии. Будет организована он-лайн трансляция и видеозапись докладов.
У желающих выступить с постером есть еще пять дней (до 22 мая), чтобы подать заявку на участие.
Зарегистрироваться в качестве слушателя можно на сайте конференции до 23-ого мая включительно.

Читать полностью »

26 мая 2012 в Санкт-Петербурге пройдет первая конференция AINL: Искусственный интеллект и естественный язык. Основные темы и направления: распознавание и синтез речи, искусственный интеллект и диалоговые системы, инженерия знаний и онтологии, извлечение данных и data mining.
Конференция будет длиться один день, официальный язык — русский.
Сейчас мы формируем программу и приглашаем докладчиков.

image
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js