Рубрика «Семантика»

Всем привет!

Несмотря на диковинность и некоторую отвлеченность рассматриваемой сегодня темы — надеемся, что она сможет разнообразить вам выходные. В конце поста помещаем три ссылки от автора, позволяющие познакомиться с зависимой типизацией в Idris, F# и JavaScript
Читать полностью »

image

Byte-code “Tsifor” for any language as number of stem and number of grammatical form for man-machine interface and corpus linguistics

Дмитрий Тюрин (Dmitry Turin), vk.com/dima.turin, dima.turin@qq.com, dima.turin@gmail.com

Прочитана лекция (youtu.be/gl89IIvpgCg) на 6-м Фестивале языков в Великом Новгороде.

Ключевые слова: ЧМИ, машинный перевод, текстовый поиск, полнотекстовый поиск.

Аннотация: Машины мыслят идентификаторами, и ЧМИ требует назначить их основам слов и грамматическим формам, а в сообщениях указывать только числа. Форма слова задаются шестью «зубцами»: предлогом, префиксом, трансфиксом, постфиксом, послелогом, катализатором (последний стоит в любой части предложения). Изолирующие, аналитические и синтетические языки отличаются только тем, какие применяют зубцы. Инкорпорирующие и неинкорпорирующие, с левым или с правым ветвлением – только «лакуной»: между какими соседними зубцами главного слова стоит основа зависимого (и в каком порядке идут зубцы главного и зависимого слов, разных зависимых частей речи при одной главной, однородных членов). Таким образом перенумеровав основы слов и «расчёски» (композиции зубцов), заменяем каждое слово на два идентификатора. Языки разнятся также тем, какими граммемами обмениваются существительное, числительное и счетное слово – «блендингом», а также кто из них принимает константные грамматические формы и какие. Свойства языка – номер используемой лакуны, порядки зубцов, подробности блендинга, копируемые граммемы при вершинном и двойном маркировании и т.д. – выносятся из сообщений в специальные таблицы в операционной системе.

Читать полностью »

Компьютеры пишут прозу, но все еще уступают людям. Почему? - 1

Два года назад в японском литературном конкурсе чуть не выиграла повесть, написанная искусственным интеллектом. Она называется «День, когда компьютер написал роман». Пусть это и звучит как дурацкое воплощение анекдота «лучший способ заработать миллион — написать книгу, как заработать миллион», повесть прошла в финал, обойдя примерно полторы тысячи текстов, написанных людьми. Но прорыва не случилось. Художественные тексты по-прежнему пишут люди, нехудожественные — в основном тоже.

Пару месяцев назад компания Meanotek попробовала сделать ИИ-помощника для писательства и написать рассказ с ним в соавторстве. Спойлер — успеха он не добился. Создатели проекта рассказали нам, в чем была идея и как она воплощена. А мы попытались разобраться, почему из машин поэты выходят лучше, чем прозаики.
Читать полностью »

Привет! Давно я сюда ничего не писал, со времён моего золотого поста про переход Opera на WebKit прошло уже пять лет. Но тут появился повод: завёл себе блог на Ютубе. Чтобы понять, зачем и что это такое — смотрите пилот. Если коротко: чтобы разбирать сайты и отвечать на вопросы. А сейчас перед вами 9-й выпуск с ответами на вопросы. Под катом подробности, ссылки, почта для связи и спойлер с остальными видео. Если меня здесь не съедят живьём — буду продолжать постить сюда раз в неделю новые.

Читать полностью »

Мы уже рассказывали вам об интересных статистиках текстов, делали обзор статей применений автокодировщиков в анализе текстов, удивляли нашими свежими алгоритмами поиска переводных заимствований и парафраза. Я решил продолжить нашу корпоративную традицию и, во-первых, начать статью с «Т», а во-вторых, рассказать:

  • как быстро найти абзац текста среди сотен миллионов статей;
  • во что превращается документ после загрузки в систему Антиплагиат, и что с этим делать дальше;
  • как формируется отчет, который почти никто не смотрит, а стоило бы;
  • как проиндексировать не все, но достаточно.

Так устроен поиск заимствований в Антиплагиате - 1
Читать полностью »

image

Как-то, решая проблему лингвистического анализа в Power BI и заодно подыскивая примеры для моей предыдущей статьи, я вспомнил о задаче, которую пытался решить в Excel ещё несколько лет назад: нужно было внедрить в аналитическую систему словарь русского языка для лингвистического анализа большого количества запросов на естественном языке. Причём желательно было использовать стандартные офисные инструменты. Подавляющее большинство людей сразу взялись бы решать эту задачу в Excel, и я когда-то пошёл по тому же пути. В качестве словаря использовал открытый корпус русского языка (http://opencorpora.org/).

Но меня ждало разочарование — словарь состоял из 300 тыс. словоформ, более 5 млн записей, а для Excel это в принципе невозможный объём. Даже если запихнуть в него «всего лишь» 1 млн строк, то выполнять с ними какие-то манипуляции или, упаси боже, вычисления, сможет только очень терпеливый человек, который вообще никогда и никуда не торопится. Но в этот раз я решил натравить на задачу более подходящий инструмент — Power BI.
Читать полностью »

Современные текстовые редакторы умеют не только бибикать и не давать выйти из программы. Оказывается, внутри них кипит очень сложный метаболизм. Хотите узнать, какие ухищрения предпринимаются для быстрого пересчета координат, как к тексту приделываются стили, фолдинги и софтврапы и как это всё обновляется, при чем тут функциональные структуры данных и очереди с приоритетами, а также как обманывать пользователя — добро пожаловать под кат!

Текстовый редактор — это вам не высшая математика, тут думать надо - 1

В основе статьи — доклад Алексея Кудрявцева с Joker 2017. Алексей уже лет 10 пишет Intellij IDEA в JetBrains. Под катом вы найдете видео и текстовую расшифровку доклада.
Читать полностью »

Наука и философия принципиально по-разному описывают процесс зрительного восприятия человека.

Наука: Информационные процессы в живых и неживых системах протекают единообразно.

Основатель кибернетики Норберт Винер считал, что процессы обработки информации в живых и неживых системах протекают единообразно. Поэтому книгу о созданной им новой науке - кибернетике он назвал «Кибернетика, или управление и связь в животном и машине» (1948 г.)

Так же и создатели первой искусственной нейронной сети Дж. Маккалок и У. Питтс были уверены в том, что в своей работе они повторяют структуру нервной системы человека. Описание сети было приведено в работе «Логическое исчисление идей, относящихся к нервной активности» (1943 г.)

Стремление создателей информационных технологий повторить структуру и функции нервной системы человека вполне понятно. Оно обусловлено тем, что человек является «природным преобразователем информации», а потому и образцом для технического подражания.

Читать полностью »

Наступил новый учебный год. Студенты получили расписание занятий и стали задумываться о пьянках-гулянках-девушках-гитарах будущей сессии. Написание курсовых, дипломов, статей и диссертаций не за горами. А значит, грядут и анализ текстов на наличие заимствований, и отчеты о проверке, и прочая головная студенческая и администраторская боль. И у сотен тысяч людей (без шуток – мы посчитали!) уже возникает закономерный вопрос – как же обмануть «Антиплагиат». В нашем случае практически все способы обмана так или иначе связаны с искажениями текста. Мы уже научили «Антиплагиат» обнаруживать текст, «искаженный » с помощью перевода с английского на русский ( мы уже писали об этом в первой статье нашего корпоративного блога). Сегодня речь пойдет о том, как обнаруживать самый эффективный, хотя и трудоемкий способ искажения текста – парафраз.

«Трое в лодке, нищета и собаки», или как Антиплагиат ищет парафраз - 1

Читать полностью »

Мы уже писали в самой первой статье нашего корпоративного блога о том, как работает алгоритм обнаружения переводных заимствований. Лишь пара абзацев в той статье посвящена теме сравнения текстов, хотя идея достойна гораздо более развернутого описания. Однако, как известно, обо всем сразу рассказать нельзя, хоть и очень хочется. В попытках воздать должное этой теме и архитектуре сети под названием «автокодировщик», к которой мы питаем очень теплые чувства, мы с Oleg_Bakhteev и написали этот обзор.

«Туда и обратно» для нейронных сетей, или обзор применений автокодировщиков в анализе текстов - 1
Источник: Deep Learning for NLP (without Magic)

Как мы упоминали в той статье, сравнение текстов у нас было “смысловое” – мы сопоставляли не сами текстовые фрагменты, а векторы, им соответствующие. Такие векторы получались в результате обучения нейронной сети, которая отображала текстовый фрагмент произвольной длины в вектор большой, но фиксированной размерности. Как получить такое отображение и как научить сеть выдавать нужные результаты – отдельный вопрос, о которой и пойдет речь ниже.
Читать полностью »