Рубрика «русский язык»

Существует несколько парсеров, подходящих для русского языка. Некоторые из них могут даже выполнять синтаксический анализ, как SyntaxNet, MaltParser и AOT:

Мама мыла раму пластиковых окон

… или выявлять факты, как Tomita.

Глядя на эти парсеры, я вижу какую-то огромную сложность вычислений, требования к памяти, лицензионные ограничения и… ограниченность каждого решения, увы.

Чтобы понять, что же там такого сложного, мне захотелось сделать собственный парсер. Благо выходные оказались длинными.
Читать полностью »

image

Любая успешная компания, занимающаяся разработкой продуктов, ориентированных на массового пользователя, рано или поздно сталкивается с проблемой их локализации. Под ней я понимаю куда более сложную задачу, чем банальный перевод программных интерфейсов на другой язык. Ведь настоящая локализация должна учитывать максимально возможный спектр особенностей, влияющих на пользовательский опыт в той или иной стране.

К сожалению, у Apple с локализацией наблюдаются реальные проблемы. В этой статье я хочу рассмотреть ряд примеров, на которых становится очевидным недостаточно качественный подход компании к адаптации iOS и macOS под российского пользователя. Я бы даже сказал, местами откровенно наплевательский.

Это моя первая публикация на Хабре, надеюсь, вам понравится. Не откажусь от инвайта.

Читать полностью »

Всем привет! Хотелось бы поделиться с вами мыслями о своем стартапе.

Для начала, что это вообще такое:

Сервис решает проблему развития словарного запаса и очистки русского языка у наших пользователей.

После авторизации в приложении (сейчас доступно только ВКонтакте) вы получите рейтинги ваших слов, а после вы будете получать задания. Каждое задание содержит в себе 2 пункта:

1. Слово, которое лучше не использовать вообще
2. Слово, которое надо стараться заменять синонимами

После отправки определенного количества сообщений ваше задание проверяется и в зависимости от успешности выполнения меняется ваш рейтинг.
Читать полностью »

В последнее время для оценки семантического сходства широкое распространение получили методы дистрибутивной семантики. Эти подходы хорошо показали себя в ряде практических задач, но они имеют ряд жёстких ограничений. Так, например, языковые контексты оказываются сильно схожими для эмоционально полярных слов. Следовательно, антонимы с точки зрения word2vec часто оказываются близкими словами. Также word2vec принципиально симметричен, ведь за основу берётся совстречаемость слов в тексте, а популярная мера сходства между векторами — косинусное расстояние — также не зависит от порядка операндов.

Мы хотим поделиться с сообществом собранной нами базой ассоциаций к словам и выражениям русского языка. Этот набор данных лишён недостатков методов дистрибутивной семантики. Ассоциации хорошо сохраняют эмоциональную полярность и они по своей природе асимметричны. Подробнее расскажем в статье. Читать полностью »

Привет!

Пришло время подвести итоги 2016 года. Здесь пойдет речь о второй попытке повторить успех с образовательным приложением “Русский язык — грамотей”. (о другой попытке мы писали ранее)

Путь, который стоило пройти, чтобы получить бесценный опыт в мобильной разработке - 1
Читать полностью »

Поводом к написанию данного эссе, друзья, послужил прочитанный здесь, на Хабре комментарий, и грубая, в сторону перебора, ошибка с дозировкой кофе. Что касается комментария, позвольте сразу же привести его, вот он:
Читать полностью »

В предыдущий раз мы написали на Хабре о краудсорсинге лингвистических данных. Речь шла о морфологической разметке (part of speech tagging) современных текстов на русском языке. С тех пор было размечено около 2.2 млн. заданий, и около 3 тысяч человек приняли в этом участие. Мы с вами прошли чуть больше половины пути. Спасибо, что вы помогаете нам!

В OpenCorpora мы создаём открытые данные для обучения и тестирования математических моделей анализа текста на русском языке. Таким образом, мы помогаем российской компьютерной лингвистике догнать западную. Потом будем помогать обгонять ;)

Сегодня мы расскажем о разметке именованных сущностей. Это ещё один слой разметки текстов в Открытом корпусе. Мы будем выделять в тексте имена людей, названия компаний и географических объектов.

Как, читая новости, приносить пользу науке? - 1

Читать полностью »

Государственный институт русского языка имени А. С. Пушкина и компания ABBYY провели по заказу Минкомсвязи исследование ведущих российских средств массовой информации. Специалисты проанализировали 350 тысяч предложений печатных текстов и 120 часов теле- и радиопрограмм, и оценили издания, радиостанции и телеканалы по пятибальной шкале, как школьников.

«Щас обсуждали», «Все чё-то ждали» и «ужасающее фуфло»: рейтинг грамотности российских СМИ - 1
Читать полностью »

Разбор естественного языка: грамматическая нотация - 1

Я уже довольно давно интересуюсь ИИ, особенно областью, связанной с пониманием машиной текстов, написанных на естественном языке. Как известно, классическая теория анализа текста разделяет этот процесс на три этапа:

  • Морфологический — анализ словоформ и их характеристик (число, падеж, и т.д.);
  • Синтаксический — выделение структуры предложения (отношения между словами);
  • Семантический — выделение смысла исходя из «модели мира»;

Первый этап в целом решён. Мы имеем подробные морфологические словари, покрывающие львиную долю слов, встречающихся в большинстве текстов. Кроме того, для распространённых языков существуют правила, позволяющие с достаточной точностью классифицировать неизвестные словоформы.

Ситуация с синтаксическим разбором куда более сложная. Существующие анализаторы не могут претендовать на правильность и точность разбора в сложных случаях. Большая часть качественных продуктов выпущены под проприетарной лицензией (в большей мере это касается русского языка; с английским проблема, кажется, не стоит столь остро). Поэтому для прогресса в понимании машиной текстов, написанных на естественном языке, мы нуждаемся в качественных и доступных синтаксических анализаторах.

Из-за отсутствия у меня глубоких знаний в области нейронных сетей я решил следовать более проторенной тропой, а именно разработать BNF-подобную грамматическую нотацию и реализовать анализатор, использующий грамматические правила, описанные с её помощью. С этой точки зрения при разработке практически полезного анализатора основная работа заключается именно в построении достаточной системы правил (что у меня далеко до завершения). В следующем посте я опишу устройство реализованного анализатора, а пока хочу сфокусироваться на разработанной грамматической нотации.
Читать полностью »

Известный ресурс Gog.com, продающий игры без DRM защиты, теперь стал ближе к русскоязычным пользователям.

Gog.com теперь на русском языке - 1

Cервис цифровой дистрибуции компьютерных игр и фильмов gog.com известен аудитории Habrahabr и Geektimes периодическими акциями по бесплатной раздаче некоторых старых игр. На память всплывают раздачи Читать полностью »