Т — значит творчество

в 7:09, , рубрики: natural language processing, антиплагиат, Блог компании «Антиплагиат», информационный поиск, машинное обучение, микросервисы, обработка текстов, позитив, Программирование, разработка, с новым годом

Пока весь мир, вместо того, чтобы нарезать салаты готовиться к встрече Нового года, следит за развитием ситуации с nginx, мы решили не усугублять и не готовить серьезную научную статью, не шокировать технологиями наступившего будущего и не грузить очень хитрым алгоритмом. Мы тоже пользуемся nginx и надеемся, что и с его создателями и с ним все будет хорошо. И нам (да и не только нам) важно, чтобы ситуация разрешилась не как подарок Деда Мороза, а как естественный ход событий.
Т — значит творчество - 1

Мы продолжаем планомерно индексировать новые научные тексты, доступные в интернете. В этом году мы концентрировали усилия на обновлении технологической платформы под существенное ускорение процесса индексации. Запустили в эксплуатацию новую версию нашего индекса. Одновременно с этим мы завели новый модуль поиска «Интернет плюс», который ищет с использованием «больших» поисковиков. Результаты проверок на заимствование с ним становятся полнее.

Для корпоративных клиентов мы начали продвигать единый стандарт проверки — «Объединенную коллекцию» (далее — ОК). Это полный набор из всех модулей поиска, что у нас есть, за исключением кросс-языкового поиска с участием казахского языка (он входит в ОК по умолчанию для наших казахских клиентов) и модуля «Интернет плюс» (его мы планируем включить в 2020 году). Сверх-идея ОК заключается в том, чтобы каждому пользователю обеспечить максимально доступное качество поиска.

Для частных клиентов мы запустили новые тарифы, включающие в себя одну или три проверки, но зато по Объединенной коллекции. Судя по нашей статистике, этот тариф пользуется спросом.

По количеству проверок мы тоже прибавили. В сессию в этом году мы делали на четверть проверок больше, чем в прошлом году, а декабрь завершается с приростом почти наполовину. Ждем май-июнь 2020, будет жаркое начало лета!

Т — значит творчество - 2

С 4-ого декабря мы запустили эксперимент по подключению проверок по контенту одного из крупнейших зарубежных научных издательств — John Wiley & Sons. Мы ищем как обычные заимствования из открытых статей, так и кросс-языковые с английского на русский.

Кроме коллекций из дальнего зарубежья, в уходящем году мы стали ближе к нашим соседям из Казахстана. Интерфейс нашей системы доступен теперь на трех языках: русском, английском и казахском. А еще у нас появились новые модули поиска переводных заимствований: русско-казахский и англо-казахский.

В этом году наши исследователи упорно работали, и мы существенно подняли качество поиска переводных заимствований. И главное — сделали их более эффективными, что позволило включить их в Объединенную коллекцию.

Мы серьезно отрефакторили механизм поиска технических обходов системы и готовы быстро и неприятно удивлять нерадивых студентов уже весной 2020 года. Эта статья более чем вдвое побила рекорд предыдущего года по комментариям. Дискуссия получилась очень полезной — часть замечаний пойдет в продуктовый бэклог. Мы тщательно записали все замечания в блокнотик, и как только структурируем их, то сразу напишем развернутую статью, почему все не так просто как кажется и как оно на самом деле (по крайней мере, на наш взгляд).

Самое интересное, что примерно в это время мы провели мозговой штурм по стратегическому развитию продукта. Все рассказать не можем, но одно фото уже просочилось в прессу.

Т — значит творчество - 3

За весь год мы провели 79 вебинаров, которые посетили свыше 13 тыс. участников! Для себя определили топ-5 вебинаров, которые вызвали наибольший интерес нашей аудитории:

Все наши вебинары доступны на нашем youtube-канале

Конференции. Всего мы приняли участие в 59 (опять недобрали до круглого числа) выездных мероприятиях, на которых рассказывали, как правильно работать с системой Антиплагиат. Кроме профессиональных мероприятий и обучающих семинаров, мы участвовали и в научных конференциях. Представили свои результаты на NeurIPS-2019 (ведущей международной конференция по машинному обучению и интеллектуальному анализу данных) и KDD-2019. В четвертый раз провели свою собственную конференцию «Обнаружение заимствований».

Мы умеем и отдыхать. Так, 14-ый день рождения компании отметили сплавом на рафтах в Подмосковье. И, вдохновившись экстремальной презентацией cybertrack'a от Илона Маска, в Новый, 2020 год, мы въехали на электрокартах!

Т — значит творчество - 4

Немного завидую молодым стартапам. Не так давно появились всякие классные технологии, многократно ускоряющие разработку и делающие простыми операции выкатки, тестирования и т.п. Легко сейчас начинать все с нуля и делать быстро и сразу оптимально. В истории нашей системы были и ассемблер, и самописные на коленке протоколы взаимодействия на уровне tcp и много других подобных вещей. Ещё лет пять назад логика системы почти поровну делилась между тяжеленным сайтом и монолитным бекэндом. 3 года назад большая часть логики с сайта ушла, сделав его легким, а бекэнд был разделен на несколько сервисов внутри одного процесса. В 2019 мы серьезно продвинулись в дроблении монолитного бекэнда. Очень надеюсь, что сможем рассказать success-story о полном переезде в контейнеры и k8s-оркестрацию в конце 2020.

Май-июнь и декабрь мы традиционно используем для того, чтобы подготовить крупные, с точки зрения внутренней архитектуры, изменения функциональности. Вот и теперь в январе должен появиться MVP новой функции, реализация которой повлекла за собой выделение нескольких микросервисов из монолита и глубокий рефакторинг кода подготовки отчета.

Антиплагиат у меня ассоциируется с самолетом, который 14 лет назад начал свой полет и летит до сих пор. При этом меняется конструкция самолета, добавляются или меняются двигатели, прибывают новые пассажиры, доливается топливо, случаются (увы!) замены в команде, но наш самолет продолжает лететь и лететь вперед!

Данную статью подготовили вместе с andyray

Сочных мандаринов, вкусного оливье и удачно завершенных batch работ на длинных выходных. С наступающим новым 2020 годом!

Творите собственным умом!

Автор: Yury Chekhovich

Источник


* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js