Рубрика «Компьютерная лингвистика» - 4

Общий привет.

Недавно, для шлифовки морфологического словаря, способного (предположительно) генерировать все возможные формы слова из инфинитива — мне понадобился достаточно объемный частотный словарь русского языка. Частотный словарь — вещь очень простая, слова в нем упорядочены по частоте, с которой они встречаются в анализируемом тексте.
Читать полностью »

Новые подробности о шифре Copiale 18 века

Журнал Wired опубликовал замечательную историю о том, как специалисты по машинному переводу текстов вместе с лингвистами сумели найти ключ к шифру масонского манускрипта 1760-1780-х годов, который никто не мог прочитать с момента его находки в 1970 году и который считался одним из самых трудных шифров в мире. О расшифровке рукописи сообщалось год назад — в октябре 2011 года, тогда были расшифрованы первые 16 страниц текста. С тех пор учёные значительно продвинулись в понимании этого уникального документа, составленного членами ордена Окулистов.

Оказалось, что кроме расшифрованного текста, отдельные символы расшифрованной рукописи означают цифры, которые составляют другую, отдельную шифрограмму, и её пока не удалось расшифровать.
Читать полностью »

Можешь выбрать подходящую к заголовку поста картинку?

«Он видел их семью своими глазами»

Тогда научи робота! Он тоже хочет.

Команда проекта Открытый корпус просит хабралюдей помочь разметить свободно доступный (CC-BY-SA) корпус текстов. Под катом мы расскажем о том, что такое корпус, зачем он нужен, как обстоят дела с корпусами в России и за рубежом, почему так плохо и какой у нас план.

Читать полностью »

Я хочу представить NLPub — небольшую базу знаний, посвящённую компьютерной лингвистике в России.

Сейчас никого не удивить устройствами и приложениями, способными понимать и говорить на человеческом языке. В основе таких приложений лежат методы обработки естественного языка, образующие общее направление на стыке лингвистики и искусственного интеллекта.

Почему подавляющее большинство устройств, приложений и сервисов не работает с русским языком?
Читать полностью »

Последнее время на Хабре зачастили статьи про обработку естественного языка.
И так уж совпало, что последнее время я работаю в этой области.
Был очень хорошо освещен sentiment analysis, и теггер частей речи pymorphy.
Но мне хотелось бы рассказать, какие средства для NLP использовал я, и что я нашел нового, чего здесь еще не было
Читать полностью »

Обучаем компьютер чувствам (sentiment analysis по русски)

Sentiment analysis (по-русски, анализ тональности) — это область компьютерной лингвистики, которая занимается изучением мнений и эмоций в текстовых документах. Недавно на хабре появилась статья про использование машинного обучения для анализа тональности, однако, она была настолько плохо составлена, что я решил написать свою версию. Итак, в этой статье я постараюсь доступно объяснить, что такое анализ тональности, и как реализовать подобную систему для русского языка.
Читать полностью »

Парсим русский язык
В прошлый раз (почти год назад) мы определяли части речи в русском тексте, производили морфологический анализ слов. В этой статье мы пойдем на уровень выше, к синтаксическому анализу целых предложений.

Наша цель заключается в создании парсера русского языка, т.е. программы, которая на вход бы принимала произвольный текст, а на выходе выдавала бы его синтаксическую структуру. Например, так:

"Мама мыла раму":

(предложение
    (именная гр. (сущ мама))
    (глаг. гр. (глаг мыла)
        (именная гр. (сущ раму)))
    (. .)))

Это называется синтаксическим деревом предложения. В графическом виде его можно представить следующим образом (в упрощенном виде):
Парсим русский язык
Читать полностью »

«Диалог 2012»: соревнования по анализу тональности текстов и конкурс синтаксических анализаторов В прошлом году мы довольно подробно писали про международную конференцию по компьютерной лингвистике «Диалог», одним из основных организаторов которой является наша компания. Конференция нынешнего года была примечательна тем, что на ней были подведены итоги сразу двух соревнований между системами автоматического анализа текста. За подробностями добро пожаловать под кат.

Читать полностью »

ABBYY открывает две кафедры компьютерной лингвистики Как знают наши постоянные читатели, ABBYY не только выпускает программные продукты, но и много лет занимается научными исследованиями в области компьютерной лингвистики, без которых эти продукты не могли бы появиться. Мы также ежегодно проводим международную конференцию «Диалог» (подробно о ней – здесь). А недавно наша компания открыла кафедры компьютерной лингвистики в двух московских вузах – в Институте лингвистики РГГУ (совместно с IBM) и на факультете инноваций и высоких технологий МФТИ.

У ABBYY уже есть позитивный опыт обучения студентов: на базе МФТИ шесть лет работает наша кафедра распознавания изображений и обработки текста, а многие из ее выпускников успели сделать неплохую карьеру в компании. Поэтому мы надеемся, что с подготовкой компьютерных лингвистов у нас тоже получится.
Читать полностью »

Навеяно публикацией «Грязное программирование с чистой душой» (http://habrahabr.ru/company/abbyy/blog/144859/)

Хорошую метафору со многими смыслами привёл Дмитрий из компании ABBYY в своём посте. Автор, не обиженный отсутствием таланта и писательского дара, затрагивает очень тонкую пограничную сферу межсубстанционно-ментального перехода из «компьютерного железа» вместе с сопутствующей программной инфраструктурой в область информационную, где происходит невидимое «квантовое преобразование» физических законов в математические стохастики.

Действительно, чтобы очистить нечто-то грязное, всегда требуется запачкать что-то чистое. И этот принцип из коллекции Мэрфи абсолютно справедлив для субстанционного мира, но он, оказывается, вовсе не распространяется на ментальную сферу.Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js