Рубрика «русский язык» - 4

Всем привет! Хотелось бы поделиться с вами мыслями о своем стартапе.

Для начала, что это вообще такое:

Сервис решает проблему развития словарного запаса и очистки русского языка у наших пользователей.

После авторизации в приложении (сейчас доступно только ВКонтакте) вы получите рейтинги ваших слов, а после вы будете получать задания. Каждое задание содержит в себе 2 пункта:

1. Слово, которое лучше не использовать вообще
2. Слово, которое надо стараться заменять синонимами

После отправки определенного количества сообщений ваше задание проверяется и в зависимости от успешности выполнения меняется ваш рейтинг.
Читать полностью »

В последнее время для оценки семантического сходства широкое распространение получили методы дистрибутивной семантики. Эти подходы хорошо показали себя в ряде практических задач, но они имеют ряд жёстких ограничений. Так, например, языковые контексты оказываются сильно схожими для эмоционально полярных слов. Следовательно, антонимы с точки зрения word2vec часто оказываются близкими словами. Также word2vec принципиально симметричен, ведь за основу берётся совстречаемость слов в тексте, а популярная мера сходства между векторами — косинусное расстояние — также не зависит от порядка операндов.

Мы хотим поделиться с сообществом собранной нами базой ассоциаций к словам и выражениям русского языка. Этот набор данных лишён недостатков методов дистрибутивной семантики. Ассоциации хорошо сохраняют эмоциональную полярность и они по своей природе асимметричны. Подробнее расскажем в статье. Читать полностью »

Привет!

Пришло время подвести итоги 2016 года. Здесь пойдет речь о второй попытке повторить успех с образовательным приложением “Русский язык — грамотей”. (о другой попытке мы писали ранее)

Путь, который стоило пройти, чтобы получить бесценный опыт в мобильной разработке - 1
Читать полностью »

Поводом к написанию данного эссе, друзья, послужил прочитанный здесь, на Хабре комментарий, и грубая, в сторону перебора, ошибка с дозировкой кофе. Что касается комментария, позвольте сразу же привести его, вот он:
Читать полностью »

В предыдущий раз мы написали на Хабре о краудсорсинге лингвистических данных. Речь шла о морфологической разметке (part of speech tagging) современных текстов на русском языке. С тех пор было размечено около 2.2 млн. заданий, и около 3 тысяч человек приняли в этом участие. Мы с вами прошли чуть больше половины пути. Спасибо, что вы помогаете нам!

В OpenCorpora мы создаём открытые данные для обучения и тестирования математических моделей анализа текста на русском языке. Таким образом, мы помогаем российской компьютерной лингвистике догнать западную. Потом будем помогать обгонять ;)

Сегодня мы расскажем о разметке именованных сущностей. Это ещё один слой разметки текстов в Открытом корпусе. Мы будем выделять в тексте имена людей, названия компаний и географических объектов.

Как, читая новости, приносить пользу науке? - 1

Читать полностью »

Государственный институт русского языка имени А. С. Пушкина и компания ABBYY провели по заказу Минкомсвязи исследование ведущих российских средств массовой информации. Специалисты проанализировали 350 тысяч предложений печатных текстов и 120 часов теле- и радиопрограмм, и оценили издания, радиостанции и телеканалы по пятибальной шкале, как школьников.

«Щас обсуждали», «Все чё-то ждали» и «ужасающее фуфло»: рейтинг грамотности российских СМИ - 1
Читать полностью »

Разбор естественного языка: грамматическая нотация - 1

Я уже довольно давно интересуюсь ИИ, особенно областью, связанной с пониманием машиной текстов, написанных на естественном языке. Как известно, классическая теория анализа текста разделяет этот процесс на три этапа:

  • Морфологический — анализ словоформ и их характеристик (число, падеж, и т.д.);
  • Синтаксический — выделение структуры предложения (отношения между словами);
  • Семантический — выделение смысла исходя из «модели мира»;

Первый этап в целом решён. Мы имеем подробные морфологические словари, покрывающие львиную долю слов, встречающихся в большинстве текстов. Кроме того, для распространённых языков существуют правила, позволяющие с достаточной точностью классифицировать неизвестные словоформы.

Ситуация с синтаксическим разбором куда более сложная. Существующие анализаторы не могут претендовать на правильность и точность разбора в сложных случаях. Большая часть качественных продуктов выпущены под проприетарной лицензией (в большей мере это касается русского языка; с английским проблема, кажется, не стоит столь остро). Поэтому для прогресса в понимании машиной текстов, написанных на естественном языке, мы нуждаемся в качественных и доступных синтаксических анализаторах.

Из-за отсутствия у меня глубоких знаний в области нейронных сетей я решил следовать более проторенной тропой, а именно разработать BNF-подобную грамматическую нотацию и реализовать анализатор, использующий грамматические правила, описанные с её помощью. С этой точки зрения при разработке практически полезного анализатора основная работа заключается именно в построении достаточной системы правил (что у меня далеко до завершения). В следующем посте я опишу устройство реализованного анализатора, а пока хочу сфокусироваться на разработанной грамматической нотации.
Читать полностью »

Известный ресурс Gog.com, продающий игры без DRM защиты, теперь стал ближе к русскоязычным пользователям.

Gog.com теперь на русском языке - 1

Cервис цифровой дистрибуции компьютерных игр и фильмов gog.com известен аудитории Habrahabr и Geektimes периодическими акциями по бесплатной раздаче некоторых старых игр. На память всплывают раздачи Читать полностью »

Поиск самых длинных цепочек слов в русском языке с помощью языка Wolfram Language (Mathematica) - 1

Скачать перевод в виде документа Mathematica, который содержит весь код использованный в статье, можно здесь (архив, ~5 МБ).

Введение

В русском языке, как и во многих других языках, существуют слова, которые имеют одинаковую длину, но при этом отличаются всего лишь одной буквой. Такого рода пары слов называются метаграммами.

Предположим, что у нас есть несколько последовательных метаграмм, скажем:

мнение-мление-тление-трение-прение-поение-роение-рдение-бдение-биение

они образуют цепь метаграмм, или цепочку слов.

Отсюда проистекает игра под названием цепь слов (word ladder), которую придумал в далеком 1879 году Льюис Кэрролл.

Ясно, что далеко не для каждого начального слова может быть составлена такого рода цепь, а некоторые слова, по-видимому, должны порождать довольно длинные цепи.

В этом посте мы постараемся проанализировать цепочки слов, которые могут быть построены в русском языке, а также найдем цепочки наибольшей длины.
Читать полностью »

Никто не забыт, ничто не забыто

С момента прихода в нашу школу Интернета, грамотность детей становится хуже и хуже. На форумах они часто пишут с нарочитыми ошибками (чтобы было “прикольно”), однако в результате забывают правила русского языка. Ситуация на сегодняшний день катастрофическая.

(публикация НГС.Новости от 2006 года)

Подобные жалобы, наверное, появились не вчера, и их можно найти, наверное и в древних письмах. Но сегодня ситуация с языком сложилась совсем новая: грамотность на форумах низкая, ошибки «ться-тся», «с перва» не прекращаются. (Оставим даже за скобками заимствования — для которых нет строгих формальных правил.) Ведь, если подумать — кошмар, люди не в состоянии запомнить простые школьные правила или хотя бы ставить знаки препинания. Язык ждёт катастрофа! Неужели?

Заметное многим «засорение» языка — не катастрофа и даже не проблема, а симптом процессов, с которыми язык вполне справится.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js