Главная

Рубрика «шинглы»

Так устроен поиск заимствований в Антиплагиате

2018-11-14 в 6:44, admin, рубрики: Алгоритмы, алгоритмы поиска, анализ данных, антиплагиат, Блог компании «Антиплагиат», математика, обработка текстов, поисковые технологии, Семантика, шинглы

Мы уже рассказывали вам об интересных статистиках текстов, делали обзор статей применений автокодировщиков в анализе текстов, удивляли нашими свежими алгоритмами поиска переводных заимствований и парафраза. Я решил продолжить нашу корпоративную традицию и, во-первых, начать статью с «Т», а во-вторых, рассказать:

как быстро найти абзац текста среди сотен миллионов статей;
во что превращается документ после загрузки в систему Антиплагиат, и что с этим делать дальше;
как формируется отчет, который почти никто не смотрит, а стоило бы;
как проиндексировать не все, но достаточно.

Так устроен поиск заимствований в Антиплагиате - 1
Читать полностью »

Трудности перевода: как найти плагиат с английского языка в русских научных статьях

2018-04-24 в 8:07, admin, рубрики: алгоритмы поиска, антиплагиат, Блог компании «Антиплагиат», математика, машинное обучение, машинный перевод, поисковые технологии, Семантика, хэш-функция, шинглы

В нашей первой статье в корпоративном блоге компании Антиплагиат на Хабре я решил рассказать о том, как работает алгоритм поиска переводных заимствований. Несколько лет назад возникла идея сделать инструмент для обнаружения в русскоязычных текстах переведенного и заимствованного текста из оригинала на английском языке. При этом важно, чтобы этот инструмент мог работать с базой источников в миллиарды текстов и выдерживать обычную пиковую нагрузку Антиплагиата (200-300 текстов в минуту).

Трудности перевода: как найти плагиат с английского языка в русских научных статьях - 1 "

В течение 12 лет своей работы сервис Антиплагиат обнаруживал заимствования в рамках одного языка. То есть, если пользователь загружал на проверку текст на русском, то мы искали в русскоязычных источниках, если на английском, то в англоязычных и т. д. В этой статье я расскажу об алгоритме, разработанном нами для обнаружения переводного плагиата, и о том, какие случаи переводного плагиата удалось найти, опробовав это решение на базе русскоязычных научных статей.Читать полностью »

Публикации RSS | Комментарии RSS

https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «шинглы»

Так устроен поиск заимствований в Антиплагиате

Трудности перевода: как найти плагиат с английского языка в русских научных статьях

Архив

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «шинглы»

Так устроен поиск заимствований в Антиплагиате

Трудности перевода: как найти плагиат с английского языка в русских научных статьях

Новости

Актуальные темы

Архив