Главная

NLPub — каталог лингвистических решений

2012-10-01 в 4:37, admin, рубрики: data mining, nlpub, искусственный интеллект, Компьютерная лингвистика, обработка естественного языка, образование, Поисковые машины и технологии, русский язык, сообщество, метки: nlpub, Компьютерная лингвистика, обработка естественного языка, образование, русский язык, сообщество

Я хочу представить NLPub — небольшую базу знаний, посвящённую компьютерной лингвистике в России.

Сейчас никого не удивить устройствами и приложениями, способными понимать и говорить на человеческом языке. В основе таких приложений лежат методы обработки естественного языка, образующие общее направление на стыке лингвистики и искусственного интеллекта.

Почему подавляющее большинство устройств, приложений и сервисов не работает с русским языком?

Мне часто приходится это повторять, но причина проста и трагична. Дело в том, что решение задач обработки естественного языка сопряжено с использованием специализированных программ — анализаторов, которые остро нуждаются в информационных ресурсах — словарях, корпусах, тезаурусах, именно благодаря которым они способны выполнять свою функцию.

Всего этого в России практически нет, что парализует работу коммерческих предприятий и академических коллективов, вынуждая изобретать велосипеды или просто отказываться от лингвистических технологий.

Самое полезное, что можно сделать сиюминутно — это помочь заинтересованным людям быстрее освоиться и скорее приступить к использованию тех немногих доступных технологий, что есть в данный момент.

Для этого нужно составить каталог доступного программного обеспечения с описанием функциональных возможностей, написать обучающие материалы, предоставить ссылки на данные, руководства и прочие информационные ресурсы. Именно для этого я создал NLPub и приглашаю всех желающих присоединиться к его развитию.

Какие сведения собираются в рамках NLPub?

Особое внимание уделяется следующим темам:

инструменты обработки текста, доступные как для коммерческого, так и для некоммерческого применения — токенизаторы, морфологические анализаторы, синтаксические парсеры, средства анализа тональности;
ресурсы — словари, тезаурусы, корпусы текстов, необходимые для решения фундаментальных и прикладных задач;
мероприятия — тематические конференции и семинары для исследователей и разработчиков;
образование — учебные заведения и курсы профессиональной переподготовки в области обработки естественного языка и анализа данных.

Как можно помочь проекту?

Я вижу три доступных способа:

пополнять базу знаний, обеспечивая читателей качественным, корректным и актуальным материалом о положении дел в отечественной компьютерной лингвистике;
исправлять неточности, допущенные в процессе составления и развития базы знаний;
рассказывать про NLPub в различных тематических сообществах, повышая общественный интерес к области обработки естественного языка (хотя бы в блоге о нём напишите, как это сделал я).

Кому это принадлежит?

NLPub явлется некоммерческим проектом и не имеет аффилированности с коммерческими компаниями. Это ни в коем случае не закрывает путь в него для коммерческих компаний. Напротив, размещение информации об их продуктах чрезвычайно приветствуется наравне с открытыми и свободными решениями. Уже сегодня в перечне инструментов можно встретить немало коммерческих продуктов.

Я с радостью отвечу на все вопросы и замечания, изложенные как в комментариях здесь, так и через более приватные каналы связи.

Автор: eveel