Рубрика «data mining» - 89

imageУверен, что с заголовком многие не согласятся, но все же оставлю как есть, потому что абсолютно в этом уверен:Читать полностью »

Требуемые знания: знакомство с методами линейной бинарной классификации(e.g. SVM(см. SVM Tutorial)), линейная алгебра, линейное программирование

Рассмотрим линейную задачу бинарной классификации(если задача линейно неразделима, её можно свести к таковой с помощью симметричного интегрального L-2 ядра(см. SVM)). imageПри решении такой задачи классифицируемые элементы(далее образцы) представляются в виде элементов векторного пространства размерности n. На практике в таких задачах n может быть чрезвычайно большим, например для задачи классификации генов оно может исчисляться десятками тысяч. Большая размерность влечёт, по-мимо высокого времени вычисления, потенциально высокую погрешность численных рассчётов. Кроме того использование большой размерности может требовать больших финансовых затрат(на проведение опытов). Постановка вопроса такова: можно ли и как уменьшить n отбрасыванием незначимых компонент образцов так, чтобы образцы разделялись «не хуже» в новом пространстве(эмпирическая ошибка не возросла или, что тоже самое, в новом пространстве образцы оставались линейно разделимы) или «не сильно хуже».
В своей статье я хочу для начала провести краткий обзор метода из этой статьи Gene_Selection_for_Cancer_Classification_using, после чего предложить свой метод.
Читать полностью »

Автоматическая проверка орфографии, модель Noisy Channel Доброго времени суток. На днях у меня возникла задача по реализации алгоритма пост-обработки результатов оптического распознавания текста. Для решения этой проблемы не плохо подошла одна из моделей для проверки орфографии в тексте, хотя конечно слегка модифицированная под контекст задачи. Этот пост будет посвящен модели Noisy Channel, которая позволяет осуществлять автоматическую проверку орфографии, мы изучим математическую модель, напишем на c# немного кода, обучим модель на базе Питера Норвига, и под конец протестируем то что у нас получится.

Читать полностью »

Необходимость сложной обработки текстовых данных, хранящихся в ERP-системах (и не только) возникает достаточно часто. В качестве вводных примеров можно привести следующие:

  • Унификация наименований товарной номенклатуры
  • Автоматическая расстановка формализованных атрибутов товаров на основании их наименований или описаний
  • Преобразование почтовых адресов как с целью унификации так и для формального структурирования
  • Определение пола человека по его имени
  • Извлечение информации из примечаний к документам (например, для автоматического связывания записи из выписки с отгрузочными документами)
  • и т.д. (фантазировать можно еще долго)

Читать полностью »

Добрый день уважаемые читатели. В сегодняшней посте я продолжу свой цикл статей посвященный анализу данных на python c помощью модуля Pandas и расскажу один из вариантов использования данного модуля в связке с модулем для машинного обучения scikit-learn. Работа данной связки будет показана на примере задачи про спасенных с "Титаника&quot. Данное задание имеет большую популярность среди людей, только начинающих заниматься анализом данных и машинным обучением.
Читать полностью »

Попробуйте решить интересные, сложные задачи, с которыми работает команда Викимарта, и получите вознаграждение при условии демонстрации лучшего результата.

Цель конкурса — предоставить всем желающим возможность исследования пользовательского поведения с коммерческим интентом и научиться предсказывать наличие определенного действия пользователя в сессии. Например, предсказать, откажется ли пользователь от созданного им заказа, станет сам оформлять заказ через сайт или позвонит в call-центр.

За каждую задачу участник может получить от 0 до 25 баллов в зависимости от места в рейтинге. Рейтинг по каждой задаче формируется по убыванию качества результата, мерой которого служит мера AUC (Area Under Curve). Суммарный рейтинг — это сумма баллов по всем задачам. Побеждает тот, кто наберет наибольшую сумму баллов. Предоставленные на конкурс результаты организатором не возвращаются.

ПРИЗЫ

1 место — 65 000 руб
2 место — 25 000 руб
3 место — планшет iPad mini 16Gb Wi-Fi+Cellular

Читать полностью »

Начал писать комментарий к собственному переводу статьи о приватности пользовательских данных и неожиданно понял, что он выливается в нечто большее.

Дело в том, что я занимаюсь технологиями data mining и text mining последние лет пятнадцать. И поэтому все недавние скандалы, связанные с делом Сноудена и PRISM, XKeyScore, Muscular, СОРМ, чтением почты Гуглом, передачей конфиденциальных и гео данных с мобильников, и множество прочих оставили меня абсолютно равнодушным.

По очень простой причине – я уже знаю, что Большой Брат давно существует.

image

Если точнее, я абсолютно в этом уверен – так же, как не могу знать, что Солнце завтра взойдет, но весьма и весьма в этом убежден. И все новые доказательства существования Большого Брата полезны, но уже не обязательны.
А объяснение уверенности очень простое: при наличии необходимых ресурсов я сам мог бы его построить.
Читать полностью »

image

Комментарий переводчика:
В последнее время вопросы приватности данных и вторжения государства в частную жизнь не сходят со страниц газет и блогов. Поскольку для нас этот вопрос являлся ключевым с точки зрения бизнеса, регулярно как в профессиональных встречах, так и в личных беседах приходилось рассказывать и доказывать, чем же аккуратное использование данных для конкретных бизнес-целей отличается от слежки за пользователями Интернета. Поэтому статья, перевод которой приведен ниже, показалась мне очень актуальной.

Когда мы начинали разрабатывать алгоритмы для оптимизации интернет-рекламы в Maxifier, то вопрос доступности и конфиденциальности данных был одним из первых, от которых зависели и потенциальные возможности нашего продукта, и общее позиционирование компании. Для себя мы однозначно решили, что не будем использовать персонифицированные данные о пользователе, а работать только с усредненными статистическими данными. Да, это несколько обедняет алгоритмы. Да, результат для каждого конкретного человека будет чуть менее точным — т.к. мы будем использовать автоматически реконструированные шаблоны поведения, но не знания о поведении в сети этого конкретного пользователя. Создали самообучающуюся систему; со временем она становится все более «умной» — статистические знания о пользователях накапливаются, шаблоны уточняются. Такое решение позволило нам избежать всех проблем с последовавшими законами о конфиденциальности данных в Европе, например, из-за которых потом сильно пострадали все системы behavior targeting'a. А то, что мы изначально строили алгоритмы, предполагая высокий уровень шума и загрубленность данных, в дальнейшем нам даже позволило сделать это дополнительным конкурентным преимуществом — т.к. наш продукт работает в случаях недостатка информации или отсутствия доступа к ней из-за политики сайтов и рекламных сетей – в ситуациях, когда решения конкурентов- обладателей баз данных не справлялись по показателям качества.
Читать полностью »

BaseX. Неизвестная NoSQL Вселенная
Далеко-далеко, где-то на краю Галактики, я обнаружил весьма впечатляющее NoSQL решение…

Любовь, апатия, ненависть, восхищение, гордость, гнев, радость — именно такие эмоции были у меня целый год. Чем больше я изучал этот продукт, тем сильнее были чувства.

Маркетинговая затравка от авторов звучит примерно так:

BaseX является очень легковесной, высокопроизводительной и масштабируемой XML базой данных с XPath/XQuery 3.0 процессором, который имеет полную поддержку W3C Update и Full Text спецификаций. Интерактивный и дружественный графический интерфейс позволяет легко изучать ваши XML документы

Звучит весьма вкусно, но реальность, как всегда, больно-больно ударяет по самым незащищенным местам
Читать полностью »

Экстрактор контента из веб документов

Здравствуй!

Это мой первый пост, в котором я хочу поделиться своей наработкой в решении такой задачки, как выделение контента на странице. Собственно, задачка давно висела в голове в фоновом режиме. Но так сложилось, что именно сейчас мне самому понадобился инструмент, кроме того наткнулся на статейку на хабре: habrahabr.ru/company/mailru/blog/200394 и решил — пора. Ладно, поехали.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js