Рубрика «Семантика»

Semantic Web и Linked Data подобны ближнему космосу: жизни там нет. Чтобы отправиться туда на более-менее длительный срок… ну, не знаю, что говорили вам в детстве в ответ на «хочу стать космонавтом». Но понаблюдать за происходящим можно и находясь на Земле; стать астрономом-любителем или даже профессионалом гораздо проще.

В статье речь пойдет о свежих, не старее нескольких месяцев, трендах из мира RDF-хранилищ. Метафора в первом абзаце была навеяна эпических размеров рекламной картинкой под катом.

Читать полностью »

image

Многие люди не знают, как работать с трендами в интернете, где их искать. Перед тем, как начинать бизнес не знают, где посмотреть будет ли этот бизнес вообще популярен и нужен ли он. Поэтому напишу полный туториал, чтобы закрыть все вопросы по этой тематике.

Работать мы будем со специальным сервисом по сбору поисковых запросов пользователей Яндекса Вордстатом, интерфейс которого довольно прост и понятен:

image

В начале, по традиции, поставлю цели:

  • Понять весь функционал и научиться работать с Вордстатом;
  • Как правильно собирать семантику с максимальной релевантностью и CTR >50%;
  • Так как мы на Хабре, поработаем с API Wordstat напрямую.

Читать полностью »

Наши правила жизни: начинать название статей с буквы «Т» и искать текстовые заимствования быстро, точно и, самое главное, красиво. Уже больше года мы успешно находим переводные заимствования и рерайт с помощью нейросетей. Но иногда нужно намеренно «стрелять себе в ногу» и, прихрамывая, идти другой дорожкой, т.е. не проверять ни на парафраз, ни на плагиат, а просто оставить кусочек текста в покое. Парадоксально, больно, но надо. Скажем сразу: трогать не будем библиографию. Как отыскать её в тексте? Почему это легко сказать, но сделать гораздо сложнее, чем кажется? Всё это в продолжении корпоративного блога компании Антиплагиат, единственного блога, где не любят зачёркнутый текст.

Так сложно найти, легко пропустить и невозможно оформить - 1

Источник изображения:Fandom.com

Читать полностью »

Открытая семантика русского языка, об истории создания которой вы можете прочитать здесь и здесь, получила большое обновление. Мы собрали достаточное количество данных, чтобы применить поверх собранной разметки машинное обучение и построить семантическую модель языка. Что из этого получилось смотрите под катом.

Новогодний датасет 2018: открытая семантика русского языка - 1
Читать полностью »

Всем привет!

Несмотря на диковинность и некоторую отвлеченность рассматриваемой сегодня темы — надеемся, что она сможет разнообразить вам выходные. В конце поста помещаем три ссылки от автора, позволяющие познакомиться с зависимой типизацией в Idris, F# и JavaScript
Читать полностью »

image

Byte-code “Tsifor” for any language as number of stem and number of grammatical form for man-machine interface and corpus linguistics

Дмитрий Тюрин (Dmitry Turin), vk.com/dima.turin, dima.turin@qq.com, dima.turin@gmail.com

Прочитана лекция (youtu.be/gl89IIvpgCg) на 6-м Фестивале языков в Великом Новгороде.

Ключевые слова: ЧМИ, машинный перевод, текстовый поиск, полнотекстовый поиск.

Аннотация: Машины мыслят идентификаторами, и ЧМИ требует назначить их основам слов и грамматическим формам, а в сообщениях указывать только числа. Форма слова задаются шестью «зубцами»: предлогом, префиксом, трансфиксом, постфиксом, послелогом, катализатором (последний стоит в любой части предложения). Изолирующие, аналитические и синтетические языки отличаются только тем, какие применяют зубцы. Инкорпорирующие и неинкорпорирующие, с левым или с правым ветвлением – только «лакуной»: между какими соседними зубцами главного слова стоит основа зависимого (и в каком порядке идут зубцы главного и зависимого слов, разных зависимых частей речи при одной главной, однородных членов). Таким образом перенумеровав основы слов и «расчёски» (композиции зубцов), заменяем каждое слово на два идентификатора. Языки разнятся также тем, какими граммемами обмениваются существительное, числительное и счетное слово – «блендингом», а также кто из них принимает константные грамматические формы и какие. Свойства языка – номер используемой лакуны, порядки зубцов, подробности блендинга, копируемые граммемы при вершинном и двойном маркировании и т.д. – выносятся из сообщений в специальные таблицы в операционной системе.

Читать полностью »

Компьютеры пишут прозу, но все еще уступают людям. Почему? - 1

Два года назад в японском литературном конкурсе чуть не выиграла повесть, написанная искусственным интеллектом. Она называется «День, когда компьютер написал роман». Пусть это и звучит как дурацкое воплощение анекдота «лучший способ заработать миллион — написать книгу, как заработать миллион», повесть прошла в финал, обойдя примерно полторы тысячи текстов, написанных людьми. Но прорыва не случилось. Художественные тексты по-прежнему пишут люди, нехудожественные — в основном тоже.

Пару месяцев назад компания Meanotek попробовала сделать ИИ-помощника для писательства и написать рассказ с ним в соавторстве. Спойлер — успеха он не добился. Создатели проекта рассказали нам, в чем была идея и как она воплощена. А мы попытались разобраться, почему из машин поэты выходят лучше, чем прозаики.
Читать полностью »

Привет! Давно я сюда ничего не писал, со времён моего золотого поста про переход Opera на WebKit прошло уже пять лет. Но тут появился повод: завёл себе блог на Ютубе. Чтобы понять, зачем и что это такое — смотрите пилот. Если коротко: чтобы разбирать сайты и отвечать на вопросы. А сейчас перед вами 9-й выпуск с ответами на вопросы. Под катом подробности, ссылки, почта для связи и спойлер с остальными видео. Если меня здесь не съедят живьём — буду продолжать постить сюда раз в неделю новые.

Читать полностью »

Мы уже рассказывали вам об интересных статистиках текстов, делали обзор статей применений автокодировщиков в анализе текстов, удивляли нашими свежими алгоритмами поиска переводных заимствований и парафраза. Я решил продолжить нашу корпоративную традицию и, во-первых, начать статью с «Т», а во-вторых, рассказать:

  • как быстро найти абзац текста среди сотен миллионов статей;
  • во что превращается документ после загрузки в систему Антиплагиат, и что с этим делать дальше;
  • как формируется отчет, который почти никто не смотрит, а стоило бы;
  • как проиндексировать не все, но достаточно.

Так устроен поиск заимствований в Антиплагиате - 1
Читать полностью »

image

Как-то, решая проблему лингвистического анализа в Power BI и заодно подыскивая примеры для моей предыдущей статьи, я вспомнил о задаче, которую пытался решить в Excel ещё несколько лет назад: нужно было внедрить в аналитическую систему словарь русского языка для лингвистического анализа большого количества запросов на естественном языке. Причём желательно было использовать стандартные офисные инструменты. Подавляющее большинство людей сразу взялись бы решать эту задачу в Excel, и я когда-то пошёл по тому же пути. В качестве словаря использовал открытый корпус русского языка (http://opencorpora.org/).

Но меня ждало разочарование — словарь состоял из 300 тыс. словоформ, более 5 млн записей, а для Excel это в принципе невозможный объём. Даже если запихнуть в него «всего лишь» 1 млн строк, то выполнять с ними какие-то манипуляции или, упаси боже, вычисления, сможет только очень терпеливый человек, который вообще никогда и никуда не торопится. Но в этот раз я решил натравить на задачу более подходящий инструмент — Power BI.
Читать полностью »