Метка «Компьютерная лингвистика» - 2

Можешь выбрать подходящую к заголовку поста картинку?

«Он видел их семью своими глазами»

Тогда научи робота! Он тоже хочет.

Команда проекта Открытый корпус просит хабралюдей помочь разметить свободно доступный (CC-BY-SA) корпус текстов. Под катом мы расскажем о том, что такое корпус, зачем он нужен, как обстоят дела с корпусами в России и за рубежом, почему так плохо и какой у нас план.

Читать полностью »

Я хочу представить NLPub — небольшую базу знаний, посвящённую компьютерной лингвистике в России.

Сейчас никого не удивить устройствами и приложениями, способными понимать и говорить на человеческом языке. В основе таких приложений лежат методы обработки естественного языка, образующие общее направление на стыке лингвистики и искусственного интеллекта.

Почему подавляющее большинство устройств, приложений и сервисов не работает с русским языком?
Читать полностью »

Последнее время на Хабре зачастили статьи про обработку естественного языка.
И так уж совпало, что последнее время я работаю в этой области.
Был очень хорошо освещен sentiment analysis, и теггер частей речи pymorphy.
Но мне хотелось бы рассказать, какие средства для NLP использовал я, и что я нашел нового, чего здесь еще не было
Читать полностью »

Обучаем компьютер чувствам (sentiment analysis по русски)

Sentiment analysis (по-русски, анализ тональности) — это область компьютерной лингвистики, которая занимается изучением мнений и эмоций в текстовых документах. Недавно на хабре появилась статья про использование машинного обучения для анализа тональности, однако, она была настолько плохо составлена, что я решил написать свою версию. Итак, в этой статье я постараюсь доступно объяснить, что такое анализ тональности, и как реализовать подобную систему для русского языка.
Читать полностью »

Парсим русский язык
В прошлый раз (почти год назад) мы определяли части речи в русском тексте, производили морфологический анализ слов. В этой статье мы пойдем на уровень выше, к синтаксическому анализу целых предложений.

Наша цель заключается в создании парсера русского языка, т.е. программы, которая на вход бы принимала произвольный текст, а на выходе выдавала бы его синтаксическую структуру. Например, так:

"Мама мыла раму":

(предложение
    (именная гр. (сущ мама))
    (глаг. гр. (глаг мыла)
        (именная гр. (сущ раму)))
    (. .)))

Это называется синтаксическим деревом предложения. В графическом виде его можно представить следующим образом (в упрощенном виде):
Парсим русский язык
Читать полностью »

«Диалог 2012»: соревнования по анализу тональности текстов и конкурс синтаксических анализаторов В прошлом году мы довольно подробно писали про международную конференцию по компьютерной лингвистике «Диалог», одним из основных организаторов которой является наша компания. Конференция нынешнего года была примечательна тем, что на ней были подведены итоги сразу двух соревнований между системами автоматического анализа текста. За подробностями добро пожаловать под кат.

Читать полностью »

ABBYY открывает две кафедры компьютерной лингвистики Как знают наши постоянные читатели, ABBYY не только выпускает программные продукты, но и много лет занимается научными исследованиями в области компьютерной лингвистики, без которых эти продукты не могли бы появиться. Мы также ежегодно проводим международную конференцию «Диалог» (подробно о ней – здесь). А недавно наша компания открыла кафедры компьютерной лингвистики в двух московских вузах – в Институте лингвистики РГГУ (совместно с IBM) и на факультете инноваций и высоких технологий МФТИ.

У ABBYY уже есть позитивный опыт обучения студентов: на базе МФТИ шесть лет работает наша кафедра распознавания изображений и обработки текста, а многие из ее выпускников успели сделать неплохую карьеру в компании. Поэтому мы надеемся, что с подготовкой компьютерных лингвистов у нас тоже получится.
Читать полностью »

Навеяно публикацией «Грязное программирование с чистой душой» (http://habrahabr.ru/company/abbyy/blog/144859/)

Хорошую метафору со многими смыслами привёл Дмитрий из компании ABBYY в своём посте. Автор, не обиженный отсутствием таланта и писательского дара, затрагивает очень тонкую пограничную сферу межсубстанционно-ментального перехода из «компьютерного железа» вместе с сопутствующей программной инфраструктурой в область информационную, где происходит невидимое «квантовое преобразование» физических законов в математические стохастики.

Действительно, чтобы очистить нечто-то грязное, всегда требуется запачкать что-то чистое. И этот принцип из коллекции Мэрфи абсолютно справедлив для субстанционного мира, но он, оказывается, вовсе не распространяется на ментальную сферу.Читать полностью »

Это далеко не праздный и совсем не риторический вопрос. Над созданием ИИ трудились, да и сейчас корпят по всему миру десятки тысяч научно-остепенённых деятелей, несчётное количество различных исследователей-разработчиков совсем без степени, кодирующих в бесчисленных «айтишных» компаниях, да и масса просто амбициозных энтузиастов, редко выходящих из дома. За последние полвека на эту тему написано множество диссертаций, монографий, статей, и в этой области созданы самые разнообразные роботы и программы для ЭВМ, претендующие, как заявляют их авторы, на «интеллектуальность». Однако, того искомого интеллекта, которого мы так долго ждем от всех этих теорий и прикладных апробаций, к нашему разочарованию, практически не просматривается.

Как же так – можно озадачиться — столько усилий и что, всё впустую? Чтобы разобраться в этом и понять глубинные причины имеющихся провалов, давайте попытаемся воспользоваться методологией системного анализа и технотронной терминологией, согласно которым под «интеллектом» какой-либо системы понимается технология её поведения. Читать полностью »

image30 мая – 3 июня в подмосковном пансионате «Бекасово» пройдет крупнейшая российская конференция по компьютерной лингвистике «Диалог». Подробно о том, что такое «Диалог» и почему ABBYY организует эту конференцию, мы подробно писали здесь.

В этом году главными темами станут:

Оценка тональности текста (sentiment analysis). Для решения этой проблемы (как понять отношение автора к тому, что он описывает) используются как методы, основанные на лингвистических правилах, так и методы компьютерного обучения на больших тестовых коллекциях документов (в которых эксперты вручную расставили оценки тональности, а компьютер пытается разобраться, какие именно свойста тестового текста связаны с оценкой, чтобы на их основе оценивать новые тексты). Думаю, многие сталкивались с «правильными» оценками тональности статей в российских системах мониторинга СМИ (не будем называть имён), так что тема очень актуальная. Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js