Рубрика «анализ текста» - 2

Этот пост я написал как свое собственное продолжение поста «Манускрипт Войнича. Маньчжурский кандидат». Рекомендую, сначала прочесть именно его, а потом уже продолжить чтением моего поста.

Так как это мой первый пост, и я не мог дописать свои соображения в виде комментария, иду, так сказать, на риск. Прошу сильно не судить. Текст не имеет прямого отношения к компьютерной тематике.
Читать полностью »

В этой статье мы попытаемся рассказать о проблеме множественной классификации на примере решения задачи автоматической расстановки поисковых тегов для текстовых документов в нашем проекте www.favoraim.com. Хорошо знакомые с предметом читатели скорее всего не найдут для себя ничего нового, однако в процессе решения этой задачи мы перечитали много различной литературы где о проблеме множественной классификации говорилось очень мало, либо не говорилось вообще.

Итак, начнем с постановки задачи классификации. Пусть X — множество описаний объектов, Y — множество номеров (или наименований) классов. Существует неизвестная целевая зависимость — отображение y^*:X→Y, значения которой известны только на объектах конечной обучающей выборки X^m={(x_1,y_1 ),…,(x_m,y_m )}. Требуется построить алгоритм a:X→Y, способный классифицировать произвольный объект x∈X. Однако более распространенным является вероятностная постановка задачи. Пусть X — множество описаний объектов, Y — множество номеров (или наименований) классов. На множестве пар «объект, класс» X×Y определена вероятностная мера P. Имеется конечная обучающая выборка независимых наблюдений X^m={(x_1,y_1 ),…,(x_m,y_m )}, полученных согласно вероятностной мере P.
Читать полностью »

Выявление виртуалов в ВикипедииВикипедия — свободная общедоступная мультиязычная универсальная интернет-энциклопедия, которая создаётся усилиями многих пользователей. На сегодня Википедия содержит 25 миллионов записей на 285 языках, почти полмиллиарда людей обращаются к ней каждый месяц. По полноте и глубине охвата материала Википедия сравнима со знаменитой Британской энциклопедией. Тысячи добровольных редакторов со всего мира постоянно пополняют её свежими статьями. Благодаря их бескорыстному труду создаётся и развивается это гигантское хранилище знаний.

Википедия стала самым популярным в мире источником общеобразовательных, исторических и научных знаний и входит в топ-10 самых посещаемых сайтов в Интернете. Она привлекает к себе не только тех, кто ищет знания, или хочет ими бескорыстно поделиться, но и маркетологов и PR-менеджеров, пытающихся использовать сайт в качестве рекламной площадки, размещать там заказные проплаченные статьи. Была создана компания Wiki-PR, специализирующаяся на написании и размещении в Википедии статей и правок рекламного характера. Цена размещения одной такой статьи варьировала от 500 до 1000 долларов. Отдельно выплачивался ежемесячный взнос порядка 50-70 долларов за то, чтобы статья или правка не была удалена, или же наоборот, чтобы был удалён и больше не появлялся на страницах Википедии нежелательный для заказчика материал. Этот момент заслуживает особого внимания.Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js