Рубрика «лингвистика» - 6

Что такое компьютерная лингвистика и как технологии на её основе помогают людям с ограниченными возможностями здоровья

2022-03-19 в 16:19, admin, рубрики: data engineering, natural language processing, nlp, nlp (natural language processing), Блог компании Нетология, голосовые интерфейсы, искусственный интеллект, Компьютерная лингвистика, лингвистика, лингвистическое по

Многие из нас ежедневно пользуются поисковыми системами, голосовыми помощниками и переводчиками текстов. Появление этих технологий стало возможным благодаря компьютерной лингвистике — области искусственного интеллекта, которая занимается описанием естественных языков при помощи математических моделей. Рассказываем, что такое компьютерная лингвистика и обработка естественного языка, какие задачи они решают и как помогают расширять возможности людей с инвалидностью.

Благодарим Елену Герасимову, руководителя отдела дополнительного профессионального образования в Нетологии, ранее руководившую направлением «Читать полностью »

Недорасшифрованные письменности Крита, Кипра и филистимлян. Часть 1: Прорыв

2022-01-02 в 5:25, admin, рубрики: греческий язык, дешифровка, дешифровка текста, древнегреческий, древние цивилизации, изучение языков, Компьютерная лингвистика, лингвистика, письменность

Текст написан иностранным агентом – лицом, проживающим за пределами России (в Канаде). Иллюстрации взяты из открытых источников - если не указано иное, из Википедии.

В этой статье будет немного про компьютерные методы, чуть побольше – про комбинаторику, но в основном – про то, что оба подхода не всесильны и у обоих есть свои ограничения.

Это хорошо видно на примере изучения древних письменностей острова Крит, из которых была дешифрована только одна – наиболее позднее Читать полностью »

Увлекательно про языки

Здесь каждая глава будет посвящена какому-то конкретному языку.

⭐ Лингво. Языковой пейзаж Европы | Гастон Доррен (2014)

Европа — языковой пирог

Популярная лингвистика. Книги про языки, которые мне нравятся - 2

Филолог и журналист из Нидерландов рассказывает каков на вкус этот самый пирог. Все это сделано в форме максимально нефромальных заметок, в конце каждой из которых есть примеры заимствованных из этого языка слов. Также автор приводит и непереводимые слова, например "мерак" — удовольствие, получаемое от какого-то простого времяпровождения, например, от общения с друзьями (сербохорватский). Помимо этого вы узнаете, что слово avalanche (лавина) — только одно заимствованное английским из романшского (одного из четырех официальных языков Швейцарии), а самое известное заимствованное слово из чешского — робот.

Читать полностью »

Моя маленькая помощь малым языкам

2021-10-03 в 13:28, admin, рубрики: data mining, natural language processing, python, изучение языков, Компьютерная лингвистика, лингвистика, машинное обучение, машинный перевод, переводчики, язык

Сложный был год: налоги, катастрофы, бандитизм и стремительное исчезновение малых языков. С последним мириться было нельзя...

На территории России проживает большое количество народов, говорящих более чем на 270 языках. Около 150 языков насчитывает менее 1 тысячи носителей, а за последние 20 лет 7 языков уже исчезло.

Этот проект — мои "пять копеек" по поддержке языкового разнообразия. Его цель — помощь исследователям в области машинного перевода, лингвистам, а также энтузиастам, радеющим за свой родной язык. Помогать будем добыванием параллельных корпусов, — своеобразного "топлива", при помощи которого современные модели все успешнее пытаются понять человеческий язык.

Сегодняшние языки — башкирский и чувашский, с популяризаторами которых я в последнее время тесно общался. Сначала я покажу как в принципе извлечь корпус из двух текстов на разных языках. Затем мы столкнемся с тем, что на рассматриваемых языках предобученная модель не тренировалась и попробуем ее дообучить.

Экспериментировать мы будем в среде Colab'а, чтобы любой исследователь при желании смог повторить этот подход для своего языка.

I. Извлекаем параллельный корпус

Для выравнивания двух текстов я написал на python'е библиотеку lingtrain_aligner. Код у нее открыт. Она использует ряд предобученных моделей, можно подключать и свои. Одной из самых удачных мультиязыковых моделей сейчас является LaBSE. Она обучалась на 109 языках. Так как соотношение текстов смещено в сторону популярных языков, то для них качество эмбеддингов (эмбеддингом называют вектор чисел применительно к данным, которые он описывает) будет лучше.

Читать полностью »

Настоящая история (старо)славянского РА

2021-09-30 в 9:49, admin, рубрики: древнерусский язык, изучение языков, история, лингвистика, Научно-популярное, эволюция языка

Автор: Виолетта Хайдарова

Все мы привыкли, что есть пары типа голос – глас, город – град, золото – злато, сторож – страж в которых слова обозначают одно и то же, отличаясь только стилем. Одно слово в таких парах всегда стилистически нейтральное, а второе – торжественное и книжное. Но как вам понравится, если я скажу, что порох и прах тоже когда-то имели одинаковое значение и были точно такой же парой? А еще один и тот же корень имеют слова колодец и клад, молодёжь и младенец, оборона и брань, ворота и вращаться, оболочка иЧитать полностью »

Исторические чередования, или Почему в русском языке почти нет исключений

2021-09-14 в 15:48, admin, рубрики: Блог компании TIMEWEB, история, лингвистика, Научно-популярное, русский язык, Читальный зал

Исторические чередования, или Почему в русском языке почти нет исключений - 1

— Вы понимаете, что здесь происходит?

— Мы тоже не понимаем.

Сегодня поговорим о такой теме, как исторические чередования и исторические процессы. "Ну вот, — скажете вы, — сейчас опять будет что-то скучное по русскому языку или даже по истории. Кому это нужно вообще? Я и так знаю русский". Конечно, такая реакция довольно предсказуема, ведь, вероятно, в школе вам могло казаться, что это скучно: учить все эти правила, исключения. Кто их вообще придумал и зачем? Но сегодня я попробую показать, что, на самом деле, это очень увлекательно. Язык — это не куча каких-то непонятных правил и исключений, а стройная и логичная система не хуже, чем в математике.

Читать полностью »

Сделай себе книгу для изучения языка с нейросетевыми иллюстрациями

2021-09-02 в 7:21, admin, рубрики: GAN, LaBSE, natural language processing, nlp, изучение языков, искусственный интеллект, книги, лингвистика, машинное обучение, обработка изображений

Lingtrain books

Статья будет интересна все любителям программирования, иностранных языков и красивых книг. Сначала мы сделаем параллельную книгу, имея на руках два обычных текста. Затем мы проиллюстрируем ее картинками в стиле pixel art на основе лишь текстовых подсказок.

Книгу можно сделать более чем на сотне языков с восстановлением и подсветкой связей между предложениями:

Lingtrain

А теперь давайте сделаем такую книгу сами.

Читать полностью »

Почему тысячу лет назад вам было бы легче учить английский

2021-08-04 в 9:23, admin, рубрики: времена, древнерусский язык, изучение языков, история, лингвистика, Научно-популярное, эволюция языка

...или Система времён, которую мы потеряли.

Автор: Виолетта Хайдарова

Те из нас, кому в детстве читали народные сказки, могли встретить там много странного. На фоне медведей-зомби, девочек со светящимися черепами и прочих милых эпизодов как-то терялись фразы, звучащие ну… немного странно. Например, «единым махом семерых побивахом». Что ещё за «побивахом» такое? Взяли и просто извратили слово ради рифмы? Оказывается, нет.

Читать полностью »

Откуда есть пошел дотракийский язык

Начнем с языков мира "Песни льда и пламени" Джорджа Мартина. Сам Мартин свои языки не прорабатывал и они так и остались бы воображаемыми, но на помощь пришла телевизионная сеть HBO с идеей высокобюджетного сериала "Игра престолов". И так как в любой области есть свои специалисты, то решено было обратиться за помощью к Обществу создания языков. Конкурс выиграл Дэвид Питерсон, американский лингвист, который уже имел богатый опыт в создании искуственных языков.

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «лингвистика» - 6

Что такое компьютерная лингвистика и как технологии на её основе помогают людям с ограниченными возможностями здоровья

Недорасшифрованные письменности Крита, Кипра и филистимлян. Часть 1: Прорыв

Популярная лингвистика. Книги про языки, которые мне нравятся

Увлекательно про языки

⭐ Лингво. Языковой пейзаж Европы | Гастон Доррен (2014)

Моя маленькая помощь малым языкам

I. Извлекаем параллельный корпус

Настоящая история (старо)славянского РА

Исторические чередования, или Почему в русском языке почти нет исключений

Сделай себе книгу для изучения языка с нейросетевыми иллюстрациями

Почему тысячу лет назад вам было бы легче учить английский

...или Система времён, которую мы потеряли.

Популярная лингвистика. Часть 2. Шедевры языкостроения

Откуда есть пошел дотракийский язык

Популярная лингвистика. Часть 1. Маме — пиджин, детям — креол