Правда ли то, что национальный корпус русского языка «приватизирован» Яндексом?

в 5:55, , рубрики: корпус, нкря, яндекс
Котики делают всё лучше!

Котики делают всё лучше!

Где-то неделю назад на Хабре увидел тезис другого автора о том, что мол НКРЯ поддерживается на бюджетные средства, но де-факто контролируется компанией Яндекс, которая ведёт себя как собака на сене и де-факто приватизировала корпус и никому его не даёт. Такое же примерно мнение слышал от людей, обозревающих интернет-тематику, мол национализация убытков, приватизация прибылей.

Статья была немного на другую тему и по сути про неё все бы забыли на следующий день, но есть один нюанс. Разработчики корпуса почему-то даже появились в комментариях той статьи. Хм, с чего бы это? Обычно системные игроки не отвечают на Хабре на критику.

У меня сейчас довольно мало понимания, что там вообще происходит, но думаю довольно яркая позиция менеджмента и менеджеров высшего звена Яндекса всем вам известна, не будем ее дублировать, чтобы не нарушать правила Хабра (и прошу быть сдержанным в комментариях). Интерес представляют 3 вопроса. Кто там реально на сене? Кто всё-таки может получить доступ к НКРЯ? И последний, дискуссионный вопрос, а как правильно?

Финансирование

У меня до этого в голове была чёткая ассоциация, что НКРЯ === Яндекс, если судить по их старому сайту. Есть вот такой пресс-релиз на сайте вышки. Приведем пару цитат (курсив мой):

В числе победителей конкурса – проект «Компьютерно-лингвистическая платформа нового поколения для цифровой документации русского языка: инфраструктура, ресурсы, научные исследования», представленный консорциумом вузов и научных организаций. Объем финансирования на три года составит 236 млн рублей. Основной исполнитель – Институт проблем передачи информации РАН, в состав консорциума вошли Институт русского языка им. В. В. Виноградова РАН, Институт лингвистических исследований РАН, Воронежский государственный университет и Высшая школа экономики, которую представляли ученые из Школы лингвистики.

Грант выделен на комплексную работу, связанную с обновлением платформы Национального корпуса русского языка - информационно-справочной системы, основанной на собрании русских текстов разных типов и жанров в электронной форме. Корпус предназначен, прежде всего, для обеспечения научных исследований лексики и грамматики языка и уникален тем, что содержит особую дополнительную информацию о свойствах этих текстов – так называемую разметку. В 2004 году, когда Национальный корпус создавался Институтом русского языка и компанией Яндекс, разметка была беспрецедентной даже по сравнению с зарубежными аналогами и с тех пор сохранила свою уникальность.

Так отлично, большой грант выделяется не Яндексу. Расходимся? Еще минуточку.

Заходим на сайт НКРЯ, он обновился. Там в разделе контакты находим новое юрлицо - ООО "Национальный корпус русского языка". Простой поиск по ЕГРЮЛ и сервисам проверки компаний не находит такую компанию. Хм странно. Но находится НЕКОММЕРЧЕСКОЕ ПАРТНЕРСТВО ПО СОДЕЙСТВИЮ РАЗВИТИЮ НАУКИ И ОБРАЗОВАНИЯ "НАЦИОНАЛЬНЫЙ КОРПУС РУССКОГО ЯЗЫКА".

В ЕГРЮЛ почему-то учредители этого НП не указаны. Но некоторые сайты "за честный бизнес", работающие в том числе на АПИ налоговой, показывают Яндекс в качестве учредителей без долей. Видим также последний отчет этого юрлица в ФНС, там вносят по 5 миллионов рублей в год, но без управленки куда они идут - неясно.

Пока понятнее от этого не становится. В сухом остатке - информации о новом ООО просто нет, а старое НП, вероятно было создано вместе с Яндексом и получало по 5 миллионов рублей в год на свою деятельность. Информация об учредителях из ЕГРЮЛ пропала, но возможно вступили в силу какие-то законы, и какие-то сайты просто не обновили свою базу. Тут если кто-то знает, напишите в комментариях.

Но почему-то в современной редакции сайта корпуса присутствует логотип Яндекса:

Правда ли то, что национальный корпус русского языка «приватизирован» Яндексом? - 2

Вообще если зайти на страницу о корпусе и о сотрудниках, то увидим:

  • Название последнего гранта совпадает с названием на сайте вышки;

  • Существенное количество технических специалистов, поддерживавших сайт корпуса за всё это время, аффилированы с Яндексом;

Пробуем получить доступ легально

Обычно в такой ситуации люди просто машут рукой, мол всё же уже и ежу и ужу понятно, и просто предлагают спарсить. Но пользовательское соглашение естественно это прямо запрещает (см. разделы 2 и 3).

Поскольку мы пользовательские соглашения уважаем и ни в коем случае не нарушаем, доступ к корпусу нужно получить только легально. Нас интересует акцентологический корпус, а в идеале без стихов и без фонетических стихотворных прочтений. Но и честно говоря если пытаться решать задачу расстановки ударений для омографов, то и "неправильный" корпус может подойти, если должным образом извернуться.

Врать не буду, какое раньше было пользовательское соглашение - не помню, да и какая разница? Еще давно знакомые писали для диплома (корпус же для физических лиц, судя по всему, увидите дальше) - и никакого ответа естественно не получали, равно как и отказа. Ситуация с тех пор как мы видим поменялась и, видимо, продолжает меняться.

Мы написали от лица нашей компании. Сказали, что хотели бы решить задачу расстановки ударений для омографов. Нам ответили (это уже прогресс), послали на страничку и дали ряд комментариев (привожу почти точные цитаты):

  • Датасета на основе акцентологического корпуса, предоставляемого по лицензии, действительно не существует и в ближайшее время его изготовление не планируется;

  • По лицензионным соглашениям, представленным на странице https://ruscorpora.ru/page/corpora-datasets/ датасеты предоставляются только физическим лицам (п.1.1) и не предполагают передачи третьим лицам (п.4.1). Также согласно ст. 1235 ГК РФ лицензионный договор заключается в определенных пределах, то, что прямо не предусмотрено договором, означает, что оно не разрешено, поэтому использование датасета в коммерческих целях текущей лицензией не предполагается. Кроме того, основанием для заключения соглашения о получении доступа к данным на безвозмездной основе служит указание на учебные или научные цели использования, о чем говорится в начале страницы. К коммерческим проектам такая лицензия неприменима;

Простыми словами - даем только физикам, использование только некоммерческое, нужного корпуса нет и не будет, хотя может он где-то в глубинах содержится, если должным образом отфильтровать. В качестве решения - посоветовали поездить по библиотекам страны, пособирать детские книги с расставленными ударениями.

Давайте соберём факты воедино

Пунктирно:

  • Когда знакомые обращались от имени физлиц для написания диплома - им просто не отвечали (хотя корпус по идее сделан для физлиц), но это было давно;

  • Корпус в данный момент живет и развивается на государственном финансировании;

  • Для практических и прикладных задач его использование "невозможно" по целому ряду причин: спарсить нельзя, лицензировать или купить нельзя, передавать третьим лицам нельзя, использовать в коммерческих целях нельзя;

  • Яндекс был также в какое-то время соучредителем НП;

  • Сотрудники, поддерживающие сайт, в существенной степени (были?) аффилированы с Яндексом;

  • Решения Яндекса довольно сносно обрабатывают те же омографы (не готов сейчас дать нормальное количественное исследование);

На этом с фактической частью повествования закончим и перейдем к оценочным суждениям. Все описанное выше - в большей степени фальсифицируемо и проверяемо, все описанное ниже - моё личное мнение.

Моё мнение

Ну тут довольно просто. Когда-то давно еще тот, другой Яндекс вложил деньги в создание корпуса (если кто-то знает какие были бюджеты - отпишитесь), и вероятно без поддержки государства тоже не обошлось. Сейчас судя по сайту НКРЯ и пресс-релизу, финансирование корпус получает приличное и государственное.

Верен ли тезис, что корпус по сути приватизирован Яндексом? Юридически скорее всего там всё максимально красиво и без задоринки. Но информации практически на эту тему нет.

Но де-факто доступ для любого практического применения фактически закрыт. Выгодно ли это Яндексу? Конечно да. Так они по сути ставят большой барьер на пути любой организации, которая хочет сделать какой-то прикладной и полезный продукт для работы с языком, предсказуемо работающий в продакшене, прикрываясь красивыми лозунгами. Можно сколько угодно с пеной изо рта спорить используют ли они корпус для своих продуктов, но для меня этот вопрос является риторическим.

В качестве причин, почему всё так а не иначе обычно приводят следующие причины:

  • Нет денег и ресурсов. Ну камон, неужели на этапе проектирования из 236 миллионов нельзя было выделить 1 штатного сотрудника для такой задачи? И сидеть там понемногу выкладывать?

  • Авторские права. Перемешивание, обфускация и рандомизация данных по сути его обнуляют. Для многих прикладных задач достаточно корпусов из предложений. Никто не будет пытаться собрать из корпуса роман по кусочкам. Этот тезис также рассыпается о то, что рандомизованные корпуса уже сейчас прекрасно выдаются по лицензии;

  • Лингвистика в западных странах так не работает, все выкладывают сайты с корпусами. Честно говоря в современном мире как-то даже смешно всерьез рассматривать это как аргумент. Ну делают, а мы давайте будем делать как лучше для нас всех вместе;

  • Корпус - это не датасет. Вопрос целеполагания. Любая система сама по себе без внешних импульсов управления заинтересована только в поддержании системы. Но если не будет базовых датасетов для решения прикладных задач - то цифровые технологии или не будут развиваться, ну или будут развиваться только внутри Яндекса или Сбера;

Получается типичная ситуация, в которой налогоплательщики не могут получить доступ к общественному благу, которое было профинансировано из их кармана. При этом эта ситуация максимально выгодна Яндексу. Эта парадигма называется "национализация убытков, приватизация прибылей". Точнее конечно могут, но только на условиях, которые не создадут помех опять же Яндексу.

При этом юридически скорее всего там всё так оформлено, что комар носу не подточит. Но мы же все хотим, чтобы было много новых прикладных продуктов, больших и маленьких, косых и красивых, сырых и не очень, для решения конкретных задач для русского языка, верно?

И знаете спросу было бы ноль, если бы они сами на свои частные средства сделали свой частный корпус и давали бы его по усмотрению (или не давали). Но ведь финансирование-то сейчас в большей степени государственное.

Как делать правильно?

Правильно создавать условия, чтобы люди могли делать свои прикладные полезные продукты в сфере обработки языка (а не все эти ваши "Chat-GPT4 go brrr"). Выкладывайте всё, что сделано на общественные средства и не прибито гвоздями, конечно с должной степенью обфускации и рандомизации. Правильно не давать монополии частной компании на ресурс, поддерживаемый на общественные средства. Правильно создавать условия для создания новых многочисленных продуктов. Сейчас как раз хорошее время, чтобы не держаться за пережитки прошлого и начать уверенно смотреть в будущее.

А как вы считаете? Вопрос дискуссионный, но большая просьба, уважать других собеседников при комментировании.

Автор: Alexander Veysov

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js