Рубрика «русский язык» - 2

Как устроен «Русский медвежонок» — оплот психодела и здравого смысла в образовании - 1

Если вы подозреваете, что «трамвай» — это глагол повелительного наклонения, или что «забор крови» — это нечто из фильмов ужасов, то вы точно понимаете, где в тестах по русскому языку есть обширное поле для лютого троллинга.

Сначала я вообще считал, что «Русский медвежонок» — это отдельное произведение искусства, созданное, чтобы с иррациональным юмором показать расширенные возможности языка. А потом allex познакомил меня с создателями сего шедевра, и выяснилось, что это вообще-то ужасно серьёзное дело, которым заняты математики и лингвисты. Предельно адекватные, насколько это вообще возможно для математиков и лингвистов.

Значит, сейчас «Медвежонок» — это самый массовый конкурс по русскому языку, подозрительно напоминающий олимпиаду всем, кроме формы. Формально он — игра. Предприятие это сугубо коммерческое, участие стоит 85 рублей (до 100 рублей на Дальнем Востоке). Участие добровольное, в качестве приза предполагается нечто символическое — это тоже осознанно, чтобы не было тех, кто играет на мамону. Все вопросы предполагают на входе некоторый общий уровень развития человека, рождённого на Земле в России. То есть это нечто из базовой школьной программы, общечеловеческие бытовые знания и базовый же кругозор. Задач на чистое академическое знание нет. Задач на зубрёжку нет. Даже если вам кажется, что есть. Задачи довольно хорошо тестируются на живых людях до раскатки на конечных пользователей.

В общем, я хочу показать, что бывает, когда математики добираются до русского языка. И познакомить вас с двумя прекрасными людьми — кандидатом физико-математических наук Игорем Рубановым, и кандидатом филологических наук Еленой Муравенко.

Первое, что меня без меры порадовало — что в методологии «пять вариантов ответов» сразу подразумевается, что все эти варианты создаются так, чтобы максимально запутать отвечающего и, фактически, внести новый уровень сложности в задачу. Сейчас покажу пару примеров.
Читать полностью »

А ЗНАЕТЕ ЛИ ВЫ, что в русском языке не менее 15 падежей. Не только было, а всё ещё есть. Не верите?

«… и никогда не теряйте дара речи» - этой фразой я заканчивала каждую телепрограмму «Знают ли русские русский?»

Как странно, есть же фраза «он просто ДАР речи потерял», но при это «не теряйте ДАРА речи». Почему «дара»? Это лишительный падеж, он используется с глаголами с частицей «не». «Я не хочу знать правды» (сравним: «хочу знать правду»), «он не имеет права» (а когда имеет, то «право»)

Читать полностью »

О русском языке в программировании - 1

Введение

Читать полностью »

Конфуций и Маргарита - 1

Вступление

Соревнований по машинному обучению как и платформ, на которых они проводятся, существует немало и на любой вкус. Но не так часто темой контеста является человеческий язык и его обработка, еще реже такое соревнование связано с русским языком. Недавно я принимал участие в соревновании по машинному переводу с китайского на русский, прошедшего на платформе ML Boot Camp от Mail.ru. Не обладая большим опытом в соревновательном программировании, и проведя, благодаря карантину, все майские праздники дома, удалось занять первое место. Про это, а также про языки и подмену одной задачи другой я постараюсь рассказать в статье.
Читать полностью »

Чтобы машины могли обрабатывать текст на русском и «понимать» его, в NLP используются универсальные языковые модели и трансформеры — BERT, RoBERTa, XLNet и другие — архитектуры от 100 миллионов параметров, обученные на миллиардах слов. Все оригинальные модели появляются обычно для английского, показывают state-of-the-art в какой-нибудь прикладной задаче и только спустя полгода-год появляются и для русского языка, без тюнинга архитектуры.

Люди ломаются на логике, роботы — на всем понемногу. Экзамены по русскому для NLP-моделей - 1

Чтобы корректнее обучать свою модель для русского или другого языка и адаптировать её, хорошо бы иметь какие-то объективные метрики. Их существует не так много, а для нашей локали и вовсе не было. Но мы их сделали, чтобы продолжить развитие русских моделей для общей задачи General Language Understanding.

Мы — это команда AGI NLP Сбербанка, лаборатория Noah’s Ark Huawei и факультет компьютерных наук ВШЭ. Проект Russian SuperGLUE — это набор тестов на «понимание» текста и постоянный лидерборд трансформеров для русского языка.
Читать полностью »

Волнует в последнее время эта тема, решил порассуждать. Буду признателен за комментарии и замечания.

1. Микроуровень

Большинство людей реально компетентны в 1-2 областях, по поводу всех остальных вынуждены полагаться на круг знакомых и мнения признанных (реальных или мнимых) специалистов и opinion-maker’ов (известных людей, формирующих своими публичными действиями или высказываниями общественное мнение). Иначе никак – ты не можешь проверять каждый факт и разбираться на профессиональном уровне во всех областях.

И вот тут начинается интересное. А кому верить? Похоже, что верят люди на самом базовом ИНСТИНКТИВНОМ уровне – тем, с кем разделяют систему ценностей, фундаментальные представления о жизни: в чём важно разбираться/что не заслуживает внимания, что круто/что не круто (эстетические предпочтения): кто-то с восторгом смотрит на чётких пацанчиков с бритым затылком, кого-то восхищает хорошо написанный текст.

Каждый день с утра до вечера мы посылаем в общество сигналы: манера двигаться, одеваться, формулировать и произносить фразы, выбор лексикона – всё это способы заявить, кто мы есть. И притягивать себе подобных. «Мне пофиг, что обо мне думают» – детский сад. И прекратите уже исправлять тех, кто говорит «звОнит». Всё они знают, не мешайте людям самоидентифицироваться.
Читать полностью »

В детстве читал рассказ Г. Майринка с таким названием. Восточный князь организовал в европейском городке представление. По сюжету известный всей публике житель городка находится на сцене в большой бутылке. Довольно быстро он начинает делать публике какие-то знаки, махать руками. Стёкла бутылки искажают черты его лица, получается очень смешно. Публика умирает со смеха, князь сидит на бутылке. Скоро человек в бутылке падает на дно и затихает. Князь ускользает в удобный момент, публика пытается понять, что это было. Оказалось, что в бутылку не поступал воздух. Их знакомый умер. У них на глазах. Знаками пытаясь объяснить, что нечем дышать. А они все при этом покатывались со смеху.

Позже я сам попал примерно в такую же ситуацию. Будучи честным преподом, годами пытался с помощью своих статей воевать с продуктами жизнедеятельности сотен языковых школ – застрявшей в головах людей рекламной демагогией. Кричал, махал руками… Часто не хватало авторитета заставить прочитать даже людей, изучающих английский. Печально, конечно, что в 21-м веке эти вещи всё ещё приходится объяснять, а люди, часто даже неглупые, продолжают вестись на чудодейственные методики, «снять языковой барьер» и прочий английский с носителями…
Читать полностью »

Перед этой статьёй рекомендуется прочитать две предыдущие части. On и Off обычно имеют противоположный смысл, поэтому мне показалось хорошей идеей совместить обзоры этих частиц.

И предлог, и частица on соответствуют русскому «на». Тут логика вполне очевидная: «на» – это и предлог (говорим о поверхностях: «на стене/столе»), и приставка – НА-сыпать (сыпать на поверхность).

Put – класть, put on – «на-кладывать». Например, put on makeup – «на-кладывать» грим. Любой предмет одежды, обуви, головной убор носители английского языка тоже накладывают, а не надевают, как у нас: put on a hat – надеть шляпу. У них даже вес тела накладывают: put on weight по-английски «набрать вес».

Часто ON соответствует русской приставке «про-». «Про-» обычно означает «двигаться вперёд»: про-двигаться, про-лезать, про-двигать. Возьмём фразовый глагол (ФГ) get on. Get означает «двигаться, перемещаться», get on буквально «про-двигаться». Или в пространстве, или, метафорически, в жизни или карьере: Young people try to get on in life – Молодые люди стараются продвигаться в жизни.
Читать полностью »

Фразовые глаголы английского языка гораздо проще, чем кажутся. Они работают точно так же, как в русском языке приставки. Выдающийся советский актёр Зиновий Гердт, узнав однажды о недостойном поступке, совершённом знакомым ему писателем, сказал: «Разрешите с вами раззнакомиться». Думаю, мало кто слышал в живой речи глагол «раззнакомиться». Но интуитивно всё равно понятно, что это противоположность «ПО-знакомиться».

Почему это так легко и понятно? Потому что в раннем детстве мы глубоко усвоили значения русских приставок и с тех пор оперируем ими легко и бессознательно. Так же легко и бессознательно 7-8-летние английские дети оперируют частицами во фразовых глаголах, на ходу сочиняют новые фразовые глаголы, которых нет ни в одном словаре.

Безответственные преподаватели рекомендуют значения фразовых глаголов «просто запоминать», не пытаясь понять их внутреннюю логику. Это порочная практика: фразовых глаголов только самых распространённых – тысячи. «Выучить» их принципиально невозможно. Вот, скажем, let – это «позволять, пускать». А фразовый глагол «let in on» означает «посвящать в тайну». Запомнить такое способен только человек, который понимает переносные значения частиц, образующих фразовые глаголы.

Если правильно усвоить эти переносные значения, можно начать понимать даже такие фразовые глаголы, с которыми сталкиваешься впервые. Знание нескольких принципов освобождает от необходимости знания многих фактов.
Читать полностью »

Миф 1. «Если я окажусь в языковой среде, я быстро и хорошо заговорю». Многие люди живут в Англии или США по 10-20 лет, но при этом очень плохо говорят по-английски. Слов и выражений — десятки тысяч только самых употребительных. Каждое из них надо осмысливать отдельно — они не отложатся каким-то магическим образом. У слов очень часто несколько значений, каждое из которых требует отдельного внимания. И надо ведь как-то ещё удерживать всю эту махину в памяти. А ещё слова часто не сочетаются друг с другом, это тоже надо держать в голове. Буквально при мне, русская дама лет пятидесяти, говорит подруге: «…и вот он мне прете-ензии делает!» Претензии. Делает. Носитель языка!
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js