Рубрика «Блог компании «Антиплагиат»»

Самоучитель клингонского

2020-06-23 в 10:05, admin, рубрики: natural language processing, автокодировщик, Алгоритмы, анализ данных, анализ текста, антиплагиат, Блог компании «Антиплагиат», математика, машинное обучение, машинный перевод, обработка текста, обучение без учителя, Семантика

Пару лет назад мы рассказали о том, как в системе Антиплагиат устроен поиск русского перевода английских статей. Естественно, без машинного переводчика в алгоритме не обойтись. В основе машинного переводчика, конечно, лежит машинное обучение, которое, в свою очередь, требует весьма значительного количества «параллельных предложений», т.е. одинаковых по смыслу предложений, написанных на двух языках. Значительное количество — это миллионы предложений, и чем больше, тем лучше. Понятно, что для русско-английской пары найти такую базу (в том числе и в открытом доступе) реально. А что делать с теми языковыми парами, для которых параллельных предложений принципиально не может быть слишком много?

Казалось бы, не имея в распоряжении большого объема обучающих примеров, обучить систему машинного перевода невозможно. Но на помощь приходит идеология Unsupervised Learning, или «обучение без учителя». Ну а чтобы задача была действительно интересной (особенно порадует она фанатов вселенной Стартрека), мы будем обучать наш машинный переводчик для пары языков «английский – клингонский».

Самоучитель клингонского - 1 Источник картинки: Собственное творчество от команды Антиплагиата

А самым подходящим девизом к дальнейшему рассказу о применении Unsupervised Learning будет знаменитая выдержка из Инструкции клингонского почетного караула «Если не можешь контролировать себя, тебе не дано командовать другими».

Читать полностью »

Т — значит творчество

2019-12-31 в 7:09, admin, рубрики: natural language processing, антиплагиат, Блог компании «Антиплагиат», информационный поиск, машинное обучение, микросервисы, обработка текстов, позитив, Программирование, разработка, с новым годом

Пока весь мир, вместо того, чтобы ~~нарезать салаты~~ готовиться к встрече Нового года, следит за развитием ситуации с nginx, мы решили не усугублять и не готовить серьезную научную статью, не шокировать технологиями наступившего будущего и не грузить очень хитрым алгоритмом. Мы тоже пользуемся nginx и надеемся, что и с его создателями и с ним все будет хорошо. И нам (да и не только нам) важно, чтобы ситуация разрешилась не как подарок Деда Мороза, а как естественный ход событий.
Т — значит творчество - 1
Читать полностью »

Так Систему не обойти

2019-12-17 в 10:01, admin, рубрики: DIY, diy или сделай сам, PDF, Алгоритмы, антиплагиат, Блог компании «Антиплагиат», Программирование

Последний учебный год, апрель месяц. Студента все чаще и чаще начинают посещать мысли о том, что надо бы заняться дипломной работой. Заняться — в смысле придумать, как быстро состряпать нечто, что будет хотя бы созвучно той теме, которую, вроде как, утверждали с научным руководителем. А, да, надо хотя бы на 80 страниц, еще и соблюсти ГОСТы там всякие… Понятное дело, самому столько связного текста уже не успеть набрать (да еще и могут начать в суть работы вникать, ну его!). Очевидно — надо брать готовую работу, которую уже защитили, работу качественную, проверенную и одобренную. Знакомая всем нам ситуация. Открытым остается единственный вопрос — как сделать так, чтобы работа прошла проверку на заимствования… Поиск в интернете и общение с коллегами по несчастью приводят студента к следующим вариантам решения проблемы:

~~Написать работу самому;~~
Перефразировать текст (дорого и сложно);
Обхитрить систему с помощью «технических обходов».

Так Систему не обойти - 1

Давайте посмотрим, какими бывают технические обходы, как мы их отлавливаем и почему их применение — не самая хорошая идея…
Читать полностью »

Теория и практика стандартизации Docker-сервисов

2019-09-25 в 9:35, admin, рубрики: .net, ci/cd, devops, docker, автоматизация, Блог компании «Антиплагиат», контейнеры

Информации на тему микросервисной архитектуры приложений, успевшей уже набить оскомину, сегодня вполне достаточно для того, чтобы определиться, подходит она вашему продукту или нет. И совершенно не секрет, что компаниям, решившим выбрать этот путь, предстоит принять множество инженерных и культурных вызовов. Одним из источников проблем является множащийся всюду оверхед, и это в равной степени касается и рутины, связанной с производственными процессами.

Теория и практика стандартизации Docker-сервисов - 1
_{Источник изображения:}

Как можно догадаться, Антиплагиат – как раз такая компания, где постепенно пришло понимание, что нам с микросервисами по пути. Но прежде чем начать есть кактус, мы решили его почистить и приготовить. А так как все единственно верные и правильные решения для каждого уникальны, то вместо универсальных DevOps-слайдов с красивыми стрелками мы решили просто поделиться собственным опытом и рассказать, как мы уже прошли немалую часть нашего особого пути к, я надеюсь, успеху.

Читать полностью »

Трип на Аляску, или KDD’19 глазами очевидца

2019-08-20 в 10:58, admin, рубрики: big data, data mining, kdd 2019, machine learning, антиплагиат, Блог компании «Антиплагиат», машинное обучение

Не секрет, что ученые очень любят исследовать мир. Поэтому крупные конференции всегда проходят в исторических и культурных столицах мира. Эти города удобны для посещения людям со всего мира и интересны с туристической точки зрения. Но иногда желание исследовать новое и неизведанное берет верх, и городом проведения конференции становится, например, Анкоридж на Аляске. Тоже о нем не слышали до этого? А в этом году там проходила одна из крупнейших конференций KDD'19.

Трип на Аляску, или KDD'19 глазами очевидца - 1

Мы в компании Антиплагиат не могли пропустить такое событие и отправились навстречу приключениям на другой конец земного шара. Что было на KDD 2019 — читайте в нашем обзоре!

Читать полностью »

Терпение и труд весь текст извлекут

2019-07-05 в 9:07, admin, рубрики: .net, api, C#, devexpress, PDF, Алгоритмы, антиплагиат, Блог компании «Антиплагиат», документы, обработка текста

Во время учебной сессии (май-июнь и декабрь-январь) пользователи просят нас проверить на наличие заимствований до 500 документов каждую минуту. Документы приходят в файлах различных форматов, сложность работы с каждым из которых различна. Для проверки документа на заимствования нам сперва необходимо извлечь из файла его текст, а заодно и разобраться с форматированием. Задача — реализовать качественное извлечение полутысячи текстов с форматированием в минуту, при этом падать нечасто (а лучше не падать совсем), потреблять мало ресурсов и не платить за разработку и эксплуатацию конечного детища половину галактического бюджета.

Да-да, мы, конечно, знаем, что из трех вещей — быстро, дешево и качественно — нужно выбрать любые две. Но самое противное, что в нашем случае мы ничего не можем вычеркнуть. Вопрос в том, как хорошо у нас это получилось...

Терпение и труд весь текст извлекут - 1

_{Источник изображения: Википедия}

Читать полностью »

Так сложно найти, легко пропустить и невозможно оформить

2019-04-23 в 9:57, admin, рубрики: Алгоритмы, анализ данных, антиплагиат, Блог компании «Антиплагиат», математика, машинное обучение, обработка текста, Семантика

Наши правила жизни: начинать название статей с буквы «Т» и искать текстовые заимствования быстро, точно и, самое главное, красиво. Уже больше года мы успешно находим переводные заимствования и рерайт с помощью нейросетей. Но иногда нужно намеренно «стрелять себе в ногу» и, прихрамывая, идти другой дорожкой, т.е. не проверять ни на парафраз, ни на плагиат, а просто оставить кусочек текста в покое. Парадоксально, больно, но надо. Скажем сразу: трогать не будем библиографию. Как отыскать её в тексте? Почему это легко сказать, но сделать гораздо сложнее, чем кажется? Всё это в продолжении корпоративного блога компании Антиплагиат, единственного блога, где ~~не любят зачёркнутый текст~~.

Так сложно найти, легко пропустить и невозможно оформить - 1

_{Источник изображения:Fandom.com}

Читать полностью »

Триллион маленьких шинглов

2019-03-29 в 13:23, admin, рубрики: .net, C#, lsm, Алгоритмы, Блог компании «Антиплагиат», ненормальное программирование, оптимизации, поисковые системы, Программирование

Триллион маленьких шинглов - 1

_{Источник изображения:www.nikonsmallworld.com}

Антиплагиат – это специализированный поисковик, о чем уже писали ранее. А любому поисковику, как ни крути, чтобы работать быстро, нужен свой индекс, который учитывает все особенности области поиска. В своей первой статье на Хабре я расскажу о текущей реализации нашего поискового индекса, истории его развития и причинах выбора того или иного решения. Эффективные алгоритмы на .NET — это не миф, а жесткая и продуктивная реальность. Мы погрузимся в мир хеширования, побитового сжатия и многоуровневых кешей с приоритетами. Что делать, если нужен поиск быстрее, чем за O(1)?

Если кто-то еще не знает, где на этой картинке шинглы, добро пожаловать…

Читать полностью »

Такая боль, такая боль, сервис на аутсорсе 1:0

2019-02-21 в 3:57, admin, рубрики: AWS, mcs, Блог компании «Антиплагиат», ИТ-ГРАД, облачные сервисы, системное администрирование, Тестирование IT-систем, техподдержка, я.облако

Мы делаем самую лучшую в России и ближнем зарубежье систему обнаружения заимствований. В идеальном мире мы бы занимались только разработкой и развитием системы. Но, увы, Антиплагиат работает не в вакууме, и для того, чтобы нашим пользователям было удобно и комфортно использовать наши разработки, нам необходимо также развивать среду, окружающую наш сервис. Наш софт пока не работает без железа, пользователям нужно оказывать техническую поддержку, получать оплату от пользователей необходимо без нарушения законодательства и т.д. Словом, рутины хватает.

Эта статья – первая из серии ~~производственных драм~~ историй о том, как мы делали наш сервис лучше при помощи аутсорса. Делимся реальными проблемами и выводами.

Облака, белогривые лошадки...

Такая боль, такая боль, сервис на аутсорсе 1:0 - 1
^{(откуда-то из интернета, впервые увидел тут.)}

Нагрузка на нашу систему сильно неравномерна: во-первых, в течение суток нагрузка меняется в 5 раз. Во-вторых, есть и ярко выраженная сезонность. Суточный максимум проверок после окончания летней сессии уменьшается в 10 раз! Зимняя сессия не столь яркая, но тоже не подарок. Плюс каждая последующая летняя сессия тяжелее (по числу проверок) и сложнее (новые технологии поиска и функциональность) предыдущей. Поэтому, с одной стороны, хочется иметь хороший запас по ресурсам, с другой – не платить лишнего во время спада активности. В сессию можно развернуть побольше серверов, а летом сократить объем потребляемых ресурсов. Очевидно, что это как раз случай облачных провайдеров. В этой статье я расскажу о различных аспектах взаимодействия с несколькими облачными провайдерами (AWS, ИТ-Град, MCS, YC). Если кому-то покажется, что это крик души, он не сильно ошибется. Итак, поехали!

Читать полностью »

Так устроен поиск заимствований в Антиплагиате

2018-11-14 в 6:44, admin, рубрики: Алгоритмы, алгоритмы поиска, анализ данных, антиплагиат, Блог компании «Антиплагиат», математика, обработка текстов, поисковые технологии, Семантика, шинглы

Мы уже рассказывали вам об интересных статистиках текстов, делали обзор статей применений автокодировщиков в анализе текстов, удивляли нашими свежими алгоритмами поиска переводных заимствований и парафраза. Я решил продолжить нашу корпоративную традицию и, во-первых, начать статью с «Т», а во-вторых, рассказать:

как быстро найти абзац текста среди сотен миллионов статей;
во что превращается документ после загрузки в систему Антиплагиат, и что с этим делать дальше;
как формируется отчет, который почти никто не смотрит, а стоило бы;
как проиндексировать не все, но достаточно.

Так устроен поиск заимствований в Антиплагиате - 1
Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «Блог компании «Антиплагиат»»

Самоучитель клингонского

Т — значит творчество

Так Систему не обойти

Теория и практика стандартизации Docker-сервисов

Трип на Аляску, или KDD’19 глазами очевидца

Терпение и труд весь текст извлекут

Так сложно найти, легко пропустить и невозможно оформить

Триллион маленьких шинглов

Такая боль, такая боль, сервис на аутсорсе 1:0

Облака, белогривые лошадки...

Так устроен поиск заимствований в Антиплагиате