Рубрика «русский язык»

Две крайности перевода - 1

Обычно имя переводчика печатают мелким шрифтом где-то среди выходных данных книги. Иногда оно так запрятано, что его приходится выискивать среди многочисленных аннотаций, номеров ISBN и адресов издательств. Как же так? Ведь переводчик фактически написал русский текст, который мы читаем. Немного грустно, что их труд часто недооценивают.

Читать полностью »

Исторические чередования, или Почему в русском языке почти нет исключений - 1

— Вы понимаете, что здесь происходит?

— Мы тоже не понимаем.

Сегодня поговорим о такой теме, как исторические чередования и исторические процессы. "Ну вот, — скажете вы, — сейчас опять будет что-то скучное по русскому языку или даже по истории. Кому это нужно вообще? Я и так знаю русский". Конечно, такая реакция довольно предсказуема, ведь, вероятно, в школе вам могло казаться, что это скучно: учить все эти правила, исключения. Кто их вообще придумал и зачем? Но сегодня я попробую показать, что, на самом деле, это очень увлекательно. Язык — это не куча каких-то непонятных правил и исключений, а стройная и логичная система не хуже, чем в математике.

Читать полностью »

Одно из самых заметных отличий украинского языка от русского — гласный [і] на месте дореволюционного ятя и в тех словах, где в русском [о]: двір, дім, сіль, радість и т. п. Это отличие настолько характерно, что стереотипным «плохим украинским» в юморесках стал русский с заменой [о] на [і]: «кровосісі» и т. п. При этом в других, внешне похожих словах — русскому [о] соответствует [о] и в украинском: кров, рот, сон, голос, ворон и т. п. В чём же разница между этими двумя группами слов? Статья Читать полностью »

Как устроен «Русский медвежонок» — оплот психодела и здравого смысла в образовании - 1

Если вы подозреваете, что «трамвай» — это глагол повелительного наклонения, или что «забор крови» — это нечто из фильмов ужасов, то вы точно понимаете, где в тестах по русскому языку есть обширное поле для лютого троллинга.

Сначала я вообще считал, что «Русский медвежонок» — это отдельное произведение искусства, созданное, чтобы с иррациональным юмором показать расширенные возможности языка. А потом allex познакомил меня с создателями сего шедевра, и выяснилось, что это вообще-то ужасно серьёзное дело, которым заняты математики и лингвисты. Предельно адекватные, насколько это вообще возможно для математиков и лингвистов.

Значит, сейчас «Медвежонок» — это самый массовый конкурс по русскому языку, подозрительно напоминающий олимпиаду всем, кроме формы. Формально он — игра. Предприятие это сугубо коммерческое, участие стоит 85 рублей (до 100 рублей на Дальнем Востоке). Участие добровольное, в качестве приза предполагается нечто символическое — это тоже осознанно, чтобы не было тех, кто играет на мамону. Все вопросы предполагают на входе некоторый общий уровень развития человека, рождённого на Земле в России. То есть это нечто из базовой школьной программы, общечеловеческие бытовые знания и базовый же кругозор. Задач на чистое академическое знание нет. Задач на зубрёжку нет. Даже если вам кажется, что есть. Задачи довольно хорошо тестируются на живых людях до раскатки на конечных пользователей.

В общем, я хочу показать, что бывает, когда математики добираются до русского языка. И познакомить вас с двумя прекрасными людьми — кандидатом физико-математических наук Игорем Рубановым, и кандидатом филологических наук Еленой Муравенко.

Первое, что меня без меры порадовало — что в методологии «пять вариантов ответов» сразу подразумевается, что все эти варианты создаются так, чтобы максимально запутать отвечающего и, фактически, внести новый уровень сложности в задачу. Сейчас покажу пару примеров.
Читать полностью »

А ЗНАЕТЕ ЛИ ВЫ, что в русском языке не менее 15 падежей. Не только было, а всё ещё есть. Не верите?

«… и никогда не теряйте дара речи» - этой фразой я заканчивала каждую телепрограмму «Знают ли русские русский?»

Как странно, есть же фраза «он просто ДАР речи потерял», но при это «не теряйте ДАРА речи». Почему «дара»? Это лишительный падеж, он используется с глаголами с частицей «не». «Я не хочу знать правды» (сравним: «хочу знать правду»), «он не имеет права» (а когда имеет, то «право»)

Читать полностью »

О русском языке в программировании - 1

Введение

Читать полностью »

Конфуций и Маргарита - 1

Вступление

Соревнований по машинному обучению как и платформ, на которых они проводятся, существует немало и на любой вкус. Но не так часто темой контеста является человеческий язык и его обработка, еще реже такое соревнование связано с русским языком. Недавно я принимал участие в соревновании по машинному переводу с китайского на русский, прошедшего на платформе ML Boot Camp от Mail.ru. Не обладая большим опытом в соревновательном программировании, и проведя, благодаря карантину, все майские праздники дома, удалось занять первое место. Про это, а также про языки и подмену одной задачи другой я постараюсь рассказать в статье.
Читать полностью »

Чтобы машины могли обрабатывать текст на русском и «понимать» его, в NLP используются универсальные языковые модели и трансформеры — BERT, RoBERTa, XLNet и другие — архитектуры от 100 миллионов параметров, обученные на миллиардах слов. Все оригинальные модели появляются обычно для английского, показывают state-of-the-art в какой-нибудь прикладной задаче и только спустя полгода-год появляются и для русского языка, без тюнинга архитектуры.

Люди ломаются на логике, роботы — на всем понемногу. Экзамены по русскому для NLP-моделей - 1

Чтобы корректнее обучать свою модель для русского или другого языка и адаптировать её, хорошо бы иметь какие-то объективные метрики. Их существует не так много, а для нашей локали и вовсе не было. Но мы их сделали, чтобы продолжить развитие русских моделей для общей задачи General Language Understanding.

Мы — это команда AGI NLP Сбербанка, лаборатория Noah’s Ark Huawei и факультет компьютерных наук ВШЭ. Проект Russian SuperGLUE — это набор тестов на «понимание» текста и постоянный лидерборд трансформеров для русского языка.
Читать полностью »

Волнует в последнее время эта тема, решил порассуждать. Буду признателен за комментарии и замечания.

1. Микроуровень

Большинство людей реально компетентны в 1-2 областях, по поводу всех остальных вынуждены полагаться на круг знакомых и мнения признанных (реальных или мнимых) специалистов и opinion-maker’ов (известных людей, формирующих своими публичными действиями или высказываниями общественное мнение). Иначе никак – ты не можешь проверять каждый факт и разбираться на профессиональном уровне во всех областях.

И вот тут начинается интересное. А кому верить? Похоже, что верят люди на самом базовом ИНСТИНКТИВНОМ уровне – тем, с кем разделяют систему ценностей, фундаментальные представления о жизни: в чём важно разбираться/что не заслуживает внимания, что круто/что не круто (эстетические предпочтения): кто-то с восторгом смотрит на чётких пацанчиков с бритым затылком, кого-то восхищает хорошо написанный текст.

Каждый день с утра до вечера мы посылаем в общество сигналы: манера двигаться, одеваться, формулировать и произносить фразы, выбор лексикона – всё это способы заявить, кто мы есть. И притягивать себе подобных. «Мне пофиг, что обо мне думают» – детский сад. И прекратите уже исправлять тех, кто говорит «звОнит». Всё они знают, не мешайте людям самоидентифицироваться.
Читать полностью »

В детстве читал рассказ Г. Майринка с таким названием. Восточный князь организовал в европейском городке представление. По сюжету известный всей публике житель городка находится на сцене в большой бутылке. Довольно быстро он начинает делать публике какие-то знаки, махать руками. Стёкла бутылки искажают черты его лица, получается очень смешно. Публика умирает со смеха, князь сидит на бутылке. Скоро человек в бутылке падает на дно и затихает. Князь ускользает в удобный момент, публика пытается понять, что это было. Оказалось, что в бутылку не поступал воздух. Их знакомый умер. У них на глазах. Знаками пытаясь объяснить, что нечем дышать. А они все при этом покатывались со смеху.

Позже я сам попал примерно в такую же ситуацию. Будучи честным преподом, годами пытался с помощью своих статей воевать с продуктами жизнедеятельности сотен языковых школ – застрявшей в головах людей рекламной демагогией. Кричал, махал руками… Часто не хватало авторитета заставить прочитать даже людей, изучающих английский. Печально, конечно, что в 21-м веке эти вещи всё ещё приходится объяснять, а люди, часто даже неглупые, продолжают вестись на чудодейственные методики, «снять языковой барьер» и прочий английский с носителями…
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js