Рубрика «Компьютерная лингвистика»

Как почистить компьютер от пыли

2024-08-19 в 7:22, admin, рубрики: компьютер, компьютерная графика, Компьютерная лингвистика, компьютерные игры, компьютеры

Клочья пыли внутри корпусов забивают радиаторы систем охлаждения и мешают вентиляторам пропускать через себя большие массы воздуха. Это повышает рабочие температуры комплектующих и ведет к их преждевременному выходу из строя. Чтобы продлить срок службы компонентов, нужно регулярно чистить системные блоки от пыли.

Читать полностью »

GigaChat расправляет плечи. Новая версия нейросетевой модели от Сбера

2023-10-19 в 8:01, admin, рубрики: GigaChat, large language model, linguistics, machine learning, nlp, большие языковые модели, искусственный интеллект, Компьютерная лингвистика

Читать полностью »

Сбер открывает доступ к нейросетевой модели ruGPT-3.5

2023-07-20 в 8:02, admin, рубрики: large language model, llm, natural language processing, nlp, open source, rugpt, ruGPT-3.5, sberdevices, Блог компании SberDevices, Блог компании Сбер, искусственный интеллект, Компьютерная лингвистика, языковые модели

Друзья, свершилось. Сегодня мы рады сообщить вам о релизе в открытый доступ нейросетевой модели, которая лежит в основе сервиса GigaChat.

Про то, что такое GigaChat и как мы его обучаем, вы можете прочитать в нашей предыдущей статье Читать полностью »

Lingtrain. Приложение для создания мультиязычных книг и параллельных корпусов

2022-12-17 в 12:01, admin, рубрики: natural language processing, open source, веб-приложения, изучение языков, иностранные языки, искусственный интеллект, Компьютерная лингвистика, машинное обучение, нейросети, параллельные корпуса, переводы, Программирование, языковые модели

Хочу показать, как создать мультиязычный параллельный корпус и книги при помощи моего пет-проекта, которым я занимаюсь несколько лет.

Для примера возьмем 10 редакций "Мастера и Маргариты" Михаила Булгакова (ru, uk, by, en, fr, it, es, de, hu, zhЧитать полностью »

DIY. Книги для всех, даром

2022-06-08 в 12:32, admin, рубрики: diy или сделай сам, natural language processing, open source, Блог компании Open Data Science, изучение иностранных языков, изучение языков, книгоиздание, Компьютерная лингвистика, лингвистика, параллельные корпуса

Lingtrain cover

Два года назад я начал делать небольшой проект, связанный с обработкой текстов на иностранных языках. Он постепенно развивался и стал использоваться лингвистами в НКРЯ, а энтузиасты сохранения малых языков используют его для расширения своих параллельных корпусов.

Сегодня же я расскажу как при помощи него создать полноценную параллельную книгу на разных языках. Книга будет красиво сверстана в PDF, иметь содержание, обложку и две выровненные по смыслу колонки текста. Такие книги служат отличным подспорьем при изучении иностранного языка. Найти их, однако, не так просто, и скорее всего это будут книги для детей или избранная классика. Полный пример готовой книги можно посмотреть здесь. Под капотом у приложения NLP модели, поддерживаемых языков более ста.

Проект открытый и любой может в нем поучаствовать. Во многом благодаря сообществу и вашему участию он за несколько лет дошел до сегодняшнего дня. В общем штука годная, давайте уже посмотрим, что к чему.

Читать полностью »

Что такое компьютерная лингвистика и как технологии на её основе помогают людям с ограниченными возможностями здоровья

2022-03-19 в 16:19, admin, рубрики: data engineering, natural language processing, nlp, nlp (natural language processing), Блог компании Нетология, голосовые интерфейсы, искусственный интеллект, Компьютерная лингвистика, лингвистика, лингвистическое по

Многие из нас ежедневно пользуются поисковыми системами, голосовыми помощниками и переводчиками текстов. Появление этих технологий стало возможным благодаря компьютерной лингвистике — области искусственного интеллекта, которая занимается описанием естественных языков при помощи математических моделей. Рассказываем, что такое компьютерная лингвистика и обработка естественного языка, какие задачи они решают и как помогают расширять возможности людей с инвалидностью.

Благодарим Елену Герасимову, руководителя отдела дополнительного профессионального образования в Нетологии, ранее руководившую направлением «Читать полностью »

Недорасшифрованные письменности Крита, Кипра и филистимлян. Часть 1: Прорыв

2022-01-02 в 5:25, admin, рубрики: греческий язык, дешифровка, дешифровка текста, древнегреческий, древние цивилизации, изучение языков, Компьютерная лингвистика, лингвистика, письменность

Текст написан иностранным агентом – лицом, проживающим за пределами России (в Канаде). Иллюстрации взяты из открытых источников - если не указано иное, из Википедии.

В этой статье будет немного про компьютерные методы, чуть побольше – про комбинаторику, но в основном – про то, что оба подхода не всесильны и у обоих есть свои ограничения.

Это хорошо видно на примере изучения древних письменностей острова Крит, из которых была дешифрована только одна – наиболее позднее Читать полностью »

Моя маленькая помощь малым языкам

2021-10-03 в 13:28, admin, рубрики: data mining, natural language processing, python, изучение языков, Компьютерная лингвистика, лингвистика, машинное обучение, машинный перевод, переводчики, язык

Сложный был год: налоги, катастрофы, бандитизм и стремительное исчезновение малых языков. С последним мириться было нельзя...

На территории России проживает большое количество народов, говорящих более чем на 270 языках. Около 150 языков насчитывает менее 1 тысячи носителей, а за последние 20 лет 7 языков уже исчезло.

Этот проект — мои "пять копеек" по поддержке языкового разнообразия. Его цель — помощь исследователям в области машинного перевода, лингвистам, а также энтузиастам, радеющим за свой родной язык. Помогать будем добыванием параллельных корпусов, — своеобразного "топлива", при помощи которого современные модели все успешнее пытаются понять человеческий язык.

Сегодняшние языки — башкирский и чувашский, с популяризаторами которых я в последнее время тесно общался. Сначала я покажу как в принципе извлечь корпус из двух текстов на разных языках. Затем мы столкнемся с тем, что на рассматриваемых языках предобученная модель не тренировалась и попробуем ее дообучить.

Экспериментировать мы будем в среде Colab'а, чтобы любой исследователь при желании смог повторить этот подход для своего языка.

I. Извлекаем параллельный корпус

Для выравнивания двух текстов я написал на python'е библиотеку lingtrain_aligner. Код у нее открыт. Она использует ряд предобученных моделей, можно подключать и свои. Одной из самых удачных мультиязыковых моделей сейчас является LaBSE. Она обучалась на 109 языках. Так как соотношение текстов смещено в сторону популярных языков, то для них качество эмбеддингов (эмбеддингом называют вектор чисел применительно к данным, которые он описывает) будет лучше.

Читать полностью »

Металингвистический совратитель Си. Опус I: Предварительные ласки

2020-10-14 в 6:12, admin, рубрики: ansi c, boost, C, c++, c11, C99, алгебраические типы данных, кодогенерация, Компьютерная лингвистика, макросы, метапрограммирование, метасинтаксис, метаязык, ненормальное программирование, препроцессор, Программирование, Си, Совершенный код, шаблоны c++, язык программирования си

Металингвистический совратитель Си. Опус I: Предварительные ласки - 1

>> Осторожно, модерн! 2 — 0.1. Спор на баксы и девчонок

Предисловие

Система макросов добавлена в язык программирования Си с целью абстрагирования часто повторяющихся синтаксических конструкций, и как следствие — снижения ментальной нагрузки при чтении и написании исходного кода.

Но не всё так радужно… после моих экспериментов в написании нетривиальных метапрограмм на связке Boost/Preprocessor + Boost/VMD я осознал, что с текущими ограничениями удобное и предсказуемое метапрограммирование препроцессора — нечто недостижимое (вы сами в этом убедитесь). И это не решается только бережностью по отношению к коду, это решается обёрткой над стандартным языком препроцессора в виде встроенного метаязыка.

Такой метаязык я создал, и назвал его agony-pp. Его цель — сделать встроенное в Си метапрограммирование удобоваримым (по сравнению с тем, что было). Это высокоуровневый язык программирования сам по себе, ведь он поставляет управляющие конструкции, типы данных (примитивные и пользовательские), коллекции и другие вещи, свойственные ЯВУ.

В этой серии статей, юмористически именуемых опусами ввиду витиеватого характера предметной области, я подробно объясняю подноготную agony-pp. В конце концов, я надеюсь, что данный материал повысит уважаемым читателям навык владения языком Си, преподнесёт программирование с совершенно иного ракурса.

Сегодняшняя программа:

Уточним терминологию из CS.
Рассмотрим базовые техники, без которых макросоводство на базе стандартного языка препроцессора невозможно.
Разработаем предметно-ориентированный язык для тестирования ПО.

В общем говоря, в этой вводной статье я попытался продемонстрировать практическую выгоду от метапрограммирования времени компиляции и предметной ориентации.

Читать полностью »

Про кафедру ABBYY в МФТИ. Мой личный опыт

2020-03-30 в 11:02, admin, рубрики: ABBYY, Блог компании ABBYY, Карьера в IT-индустрии, кафедра, кафедра abbyy, Компьютерная лингвистика, обработка изображений, учеба, учеба онлайн, Учебный процесс в IT, физтех

Про кафедру ABBYY в МФТИ. Мой личный опыт - 1 Привет! Меня зовут Алексей, в этом году я заканчиваю учебу на бакалавриате ABBYY на Физтехе. А еще пишу диплом, работаю и все это делаю на удаленке. В этом посте я опишу свой опыт поступления на бакалавриат ABBYY: это было пару лет назад, в 2018 году, когда мир был более безопасным (на самом деле нет) и люди могли чаще трогать лицо руками.

Я расскажу о том, как я выбирал базовую кафедру ~~и не сошел с ума~~, легко ли мне было поступить, поделюсь с вами впечатлениями от процесса обучения и стажировки и признаюсь, каково совмещать учебу с работой. Надеюсь, мой пост пригодится студентам, которые размышляют, на какую базовую кафедру в МФТИ поступать и на что при этом обратить внимание. Ведь выбор кафедры очень важен, от него зависит сфера развития на ближайшие несколько лет.
Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «Компьютерная лингвистика»

Как почистить компьютер от пыли

GigaChat расправляет плечи. Новая версия нейросетевой модели от Сбера

Сбер открывает доступ к нейросетевой модели ruGPT-3.5

Lingtrain. Приложение для создания мультиязычных книг и параллельных корпусов

DIY. Книги для всех, даром

Что такое компьютерная лингвистика и как технологии на её основе помогают людям с ограниченными возможностями здоровья

Недорасшифрованные письменности Крита, Кипра и филистимлян. Часть 1: Прорыв

Моя маленькая помощь малым языкам

I. Извлекаем параллельный корпус

Металингвистический совратитель Си. Опус I: Предварительные ласки

Предисловие

Про кафедру ABBYY в МФТИ. Мой личный опыт