Прощание с Андреем Зализняком назначили на 28 декабря

в 13:16, , рубрики: Зализняк Андрей, кадры, наука, Некролог, метки: , , ,

Похороны академика Андрея Зализняка пройдут в Москве 28-го декабря, на Троекуровском кладбище. Проститься с Андреем Зализняком можно будет в здании Российской академии наук.

зализняк-андрей

Андрей Зализняк скончался 23-го декабря в Москве на 82-м году жизни. Хотя общественности он больше всего известен как исследователь "Слова о полку Игореве" и новгородских берестяных грамот, вклад Андрея в создание российских лингвистических сервисов невозможно переоценить.

По словам Игоря Ашманова, сделанный Зализняком словарь содержал в себе грамматическую модель русского языка, которая позволяла, будучи перенесенной в цифровой вид, создавать поисковые машины и, например, программы для проверки орфографии. "Вообще говоря, грамматическая модель это вещь, которая есть не для каждого языка. Для английского и немецкого, например, точно есть. В русском языке долгое время созданием грамматической модели занимались те же немцы: Даль был немец, у Розенталя тоже было немецкое происхождение". Игорь Ашманов использовал машинный словарь Зализняка при создании проверки орфографии "Орфо" ещё в 1987-м году.

Словарь же Зализняка использовали будущие создатели "Яндекса" при создании проверки орфографии для международного классификатора изобретений (МКИ), в дальнейшем на его базе создавался поисковый алгоритм самой поисковой машины "Яндекс".

Рассказывает Аркадий Волож: «МКИ, который мы делали в 1989-90 годах, был первым опытом скрещивания поиска с русской морфологией: мы использовали там спелл-чекер, морфологию которого написал Аркадий Борковский на основе словаря Зализняка. В 1990-м Борковский уехал в Америку. А 1991-м в наше малое предприятие „Аркадия“ пришел Илья Сегалович. Через общих знакомых я вышел на лабораторию Юрия Дерениковича Апресяна в Институте проблем передачи информации РАН, где Лёня Иомдин, Игорь Богуславский, Владимир Санников и другие уже работали над морфологическим словарем. Мы пришли в ИППИ с Сегаловичем, Сережей Трифоновым и Мишей Якубовым. И через два года мы уже придумывали название для новой Илюшиной версии морфологии, которая была сделана на основе работы с лабораторией Апресяна. При этом она умела строить гипотезы по словообразованию неологизмов и имен собственных, используя описанные в словаре Зализняка словообразовательные типы, и умещалась в память персоналки (640 Кб). Мы назвали эту новую морфологию „Яndex“».

Аркадий Борковский пояснил, что создание словаря намного более сложная работа, чем перевод его в машинный вид: «В конце 80-х я для машинной морфологии упростил систему парадигм — у Зализняка словарь и парадигмы с учетом ударения, в письменном языке ударение не отражается, и морфология проще. Имплементация помещалась в память персонального компьютера и использовалась в реализованном мной спелл-чекере редактора „Лексикон“. Там была пара ошибок — например не было именительного падежа слова „заяц“ (было „зайц“). По этой ошибке можно было проверить, моя это морфология или нет.
Работы Зализняка и его учеников над словарем на порядки превосходит программистские усилия на представление этой информации в виде работающей программы. В любом случае, в основе русской морфологии, использовавшейся в «Яндексе» долгие годы лежали именно эти данные. Со стороны программирования большая работа была в расширении покрытия на слова, отсутствующие в словаре».

Леонид Лейбович Иомдин, и.о. заведующего лабораторией компьютерной лингвистики Института проблем передачи информации РАН (той самой команды Апресяна) вспоминает, что их работа начиналась без словаря Андрея Зализняка:
«Морфологический словарь русского языка мы разрабатывали сами, не имея словаря Зализняка. Набор морфологических объектов придумали сначала И. А. Мельчук, Н. А. Еськова и В. З. Санников, которые опубликовали небольшой препринт, а потом Санников создал готовую рабочую версию. Когда морфология уже была готова, появился словарь Зализняка в машиночитаемом виде, и он был полностью туда влит, для чего Санников написал очень непростой алгоритм перехода от парадигм Зализняка к нашим парадигмам. Это вливание продолжалось года полтора. Некоторые решения были другими и остаются другими (главные отличия — превращение приставочного словообразовательного вида в словоизменительный и композитная морфология). Илья Сегалович и Аркадий Волож пришли к нам в начале 1990-х и купили наш словарь, в нашем варианте, который потом и лег в основу поиска. Материал словаря Зализняка там уже был (в нашей форме). Таким образом, морфология Яндекса основана на словаре Зализняка, обработанном в нашей лаборатории».

Борис Иомдин, заведующий сектором теоретической семантики Института русского языка РАН, преподаватель Школы анализа данных Яндекса упоминает, что "понимание" машиной текста возможно именно благодаря труду Зализняка:

«Коллеги в Яндексе знают, что именно благодаря Зализняку Яндекс понимает русские слова независимо от той формы, в которой они стоят, — именно его Грамматический словарь лег в основу компьютерной морфологии, на которой работают и Яндекс, и многие другие системы автоматической обработки естественного языка. Но, описывая систему русского словоизменения, Зализняк, конечно, и не предполагал, что его работа будет встроена в миллионы компьютеров и телефонов. Главным для него был поиск научной истины, а не пути ее дальнейшего применения.

С момента появления морфологии, основанной на словаре Зализняка, лингвистический компонент Яндекса постоянно совершенствуется. Но и сейчас можно заметить следы технологии автоматического определения форм слов, которых нет в словаре. Вчера Яндекс.Навигатор предложил мне повернуть „на Барклую улицу“. В Яндекс.Картах есть „улица Барклая“, а то, что здесь не прилагательное „барклой“, а существительное (фамилия российского полководца шотландского происхождения, Михаила Барклая-де-Толли) в родительном падеже — факт, который надо описать вручную. Ручная работа, конечно, неизмеримо сложнее, чем автоматическая, и делается медленнее. Но надо помнить, что Зализняк в свое время составил свой словарь именно вручную, описав сто тысяч русских слов на карточках из тонкой бумаги и определив тип склонения или спряжения для каждого из них. Все слова уникальны, и каждое из них составляет миниатюрную лингвистическую задачу (а именно Зализняк придумал жанр самодостаточных лингвистических задач, благодаря которым родилась и распространилась по всему миру олимпиада по лингвистике). Сто тысяч карточек — это сто тысяч озарений, на которые пока не способны даже мощные нейросети. Андрей Анатольевич был еще и увлеченным автомобилистом, и этот забавный казус ему наверняка бы понравился. Теперь не расскажешь».

В Яндекс.Книге есть отрывок с описанием того, как возникла идея сотрудничества Яндекса с командой Андрея Анатольевича Зализняка:

«В один прекрасный день Волож пришел в „последнее купе“ CompTek с безумной идеей — пойти в Институт проблем передачи информации РАН и за бешеные деньги купить там легальную электронную копию орфографического словаря русского языка. Безумие этого поступка заключалось в том, что за интеллектуальную собственность тогда не платил никто. Более бесплатным был только воздух.

— В этом НИИ работала команда академика Юрия Дерениковича Апресяна, это великий человек, один из крупнейших наших лингвистов, — говорит Илья Сегалович. — Когда они поняли, что вот эти молодые люди пришли, чтобы легально купить их продукт, они были так шокированы, что сразу скинули цену на порядок. Каким-нибудь японцам институт продавал этот словарь за 10 тысяч долларов, нам — то ли за 600, то ли за 800, я уже точно не помню. И даже еще потом помогали консультациями и ценными советами.
— А зачем вам вообще этот словарь был нужен? И почему именно этот, а не какой-нибудь другой?
— Чтобы улучшить поиск, усовершенствовать систему морфологического распознавания слов. В сущности, этот словарь был улучшенной версией знаменитого Обратного словаря Андрея Зализняка. Его перевели в электронный вид еще в середине восьмидесятых в Вычислительном центре Академии наук — и этой версией мы располагали давно. Но так как Аркадий Борковский нас покинул и улучшать ту модель было некому, мы решили сотрудничать с командой Апресяна, которая, в свою очередь, тоже занималась совершенствованием Обратного словаря. На тот момент это была, пожалуй, лучшая команда лингвистов в стране.

Сотрудничество с командой Апресяна дало новый импульс работе „Аркадии“. Михаил Маслов, Дмитрий Тейблюм, Сергей Трифонов — в команде появились новые люди, которые сплотились вокруг новой задачи.

— Словарь купили, надо с ним что-то делать. Аркаша посмотрел на меня и говорит: «Давай», — вспоминает те дни Сегалович. — Я занялся плотно морфологией, лингвистикой, стал писать поисковую часть. И совершенно расхотелось куда бы то ни было уезжать. А когда поисковая часть была написана, остался один вопрос, на который надо было найти ответ: что бы такого проиндексировать?».

===

Первые поисковые алгоритмы Яндекса были основаны на грамматическом словаре и умели находить начальную форму слова — это отличало точность Яндекса от других систем. Для неизвестных, отсутствующих в словаре слов строилась гипотетическая словарная статья, которая позволяла строить их формы аналогично известным. Яндекс практически сразу научился работать с неизвестными словами — очень редкими, составными, неологизмами, собственными именами и т. п. — и это было уникальным свойством поиска. Этих слов изначально не было в системе, но Яндекс строил гипотезы и использовал словоизменительные типы, описанные в Грамматическом словаре Зализняка. Большинство новых слов изменяются регулярно, по тем же законам, что и старые слова — исключения и необычные формы встречаются обычно в самых частотных словах, сохраняющих следы более древнего состояния языка. Гипотезы, которые строил Яндекс для неизвестных слов, используя словарь Зализняка, оказывались грамматически корректны и осмысленны.

Источник

Поделиться

* - обязательные к заполнению поля