Рубрика «лингвистика»

Каждый раз говорят, что надо рассказывать в начале статьи кто я такой. Написал в профиль) Методист я, в общем.

Цель статьи – обозначить проблему и перечислить причины её существования.

Так вышло, что много лет работаю со студентами ведущих вузов Москвы и неплохо знаю ситуацию с преподаванием английского языка в них. Вкратце: не жалуются студенты только трёх – МГЛУ, МГИМО и МФТИ.

Читать полностью »

Ужасы японского языка. Лексика - 1

Месяц назад я писал о том безумии, которое представляет из себя японская письменность. Чтобы понимать японские книги, нужно потратить несметное количество времени на запоминание тысяч иероглифов, их сочетаний и произношений. Это непростая и долгая задача в том числе и для самих жителей страны восходящего солнца.

Читать полностью »

Эсперанто – плановый язык, созданный в 1887 году Людвигом Заменгофом для международного общения и известный тем, что содержит 16 правил и ни одного исключения. 140 лет спустя он все еще жив, его словарный запас вырос как минимум в 17 раз (с 904 корней при создании до 17000 корней в словаре Plena Ilustrita Vortaro издания 2020 года), им владеют по разным подсчетам от десятков тысяч до миллионов людей по всему миру, включая тех, кто говорит на нем с рождения. Как изменился язык? Утратил ли он свою простоту? Понял бы Заменгоф современных эсперантистов? Сейчас разберемся.

Читать полностью »

Lingtrain cover

Два года назад я начал делать небольшой проект, связанный с обработкой текстов на иностранных языках. Он постепенно развивался и стал использоваться лингвистами в НКРЯ, а энтузиасты сохранения малых языков используют его для расширения своих параллельных корпусов.

Сегодня же я расскажу как при помощи него создать полноценную параллельную книгу на разных языках. Книга будет красиво сверстана в PDF, иметь содержание, обложку и две выровненные по смыслу колонки текста. Такие книги служат отличным подспорьем при изучении иностранного языка. Найти их, однако, не так просто, и скорее всего это будут книги для детей или избранная классика. Полный пример готовой книги можно посмотреть здесь. Под капотом у приложения NLP модели, поддерживаемых языков более ста.

Проект открытый и любой может в нем поучаствовать. Во многом благодаря сообществу и вашему участию он за несколько лет дошел до сегодняшнего дня. В общем штука годная, давайте уже посмотрим, что к чему.

Читать полностью »

Насколько естественен естественный язык? Представляем датасет RuCoLA - 1

В последние годы в области NLP произошла настоящая революция: огромные нейросети, предобученные на сотнях гигабайт текстов, бьют все известные рекорды качества. Но обладают ли такие нейросети чутьём на «естественность» текста, которое есть у носителей языка? Оценка предложения по внутреннему чутью в лингвистике получила название приемлемости; умение давать подобную оценку — ещё один шаг на пути к общему пониманию языка. Чтобы узнать, насколько хорошо нейросети для русского языка справляются с этой задачей, мы публикуем RuCoLA (Russian Corpus of Linguistic Acceptability) — датасет русскоязычных предложений, размеченных по бинарной шкале приемлемости. Это совместный труд команды исследователей и NLP-разработчиков из SberDevices, ABBYY, Yandex Research, Huawei Noah’s Ark Lab и Факультета компьютерных наук ВШЭ. Также мы открываем лидерборд на данных RuCoLA, чтобы любой желающий мог проверить способности своих моделей или поучаствовать в развитии методов для оценки приемлемости.
Читать полностью »

… или как захоронить свои ядерные отходы навсегда.

ONKALO: чудо света на все времена, забудьте о нём… - 1

Многие уверены, что век монументального строительства прошёл. Пирамиды, мегалиты и загадочные гробницы лежат старыми игрушками в песочнице человечества. Мы выросли из них и живём сегодняшним днём, ярким и мимолётным. Когда нас не станет — от нас останутся только колоссы древности… и ONKALO.
Читать полностью »

Есть достижения и открытия, которые изменили судьбы человечества и нашей с вами цивилизации кардинально. Например, приручение домашних животных, выведение овощных культур и злаков, освоение гончарного дела, ирригация, обработка металлов. Но одним из величайших изобретений человечества стала все-таки именно письменность. Возможность передавать знания сквозь расстояние и время изменило наш мир, и невероятно ускорило развитие человеческой цивилизации. Теперь знания не исчезали бесследно и могли передаваться даже через "темные века".

Читать полностью »

Многие из нас ежедневно пользуются поисковыми системами, голосовыми помощниками и переводчиками текстов. Появление этих технологий стало возможным благодаря компьютерной лингвистике — области искусственного интеллекта, которая занимается описанием естественных языков при помощи математических моделей. Рассказываем, что такое компьютерная лингвистика и обработка естественного языка, какие задачи они решают и как помогают расширять возможности людей с инвалидностью. 

Благодарим Елену Герасимову, руководителя отдела дополнительного профессионального образования в Нетологии, ранее руководившую направлением «Читать полностью »

Текст написан иностранным агентом – лицом, проживающим за пределами России (в Канаде). Иллюстрации взяты из открытых источников - если не указано иное, из Википедии.

В этой статье будет немного про компьютерные методы, чуть побольше – про комбинаторику, но в основном – про то, что оба подхода не всесильны и у обоих есть свои ограничения.

Это хорошо видно на примере изучения древних письменностей острова Крит, из которых была дешифрована только одна – наиболее позднее Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js