- PVSM.RU - https://www.pvsm.ru -

Пока маркетологи обмазываются BigData и бегают в таком виде на пресс-конференциях, я предлагаю просто скачать бесплатный инструмент с тестовыми наборами данных, шаблонами процессов и начать работать.
Закачка, установка и получение первых результатов — минут 20 максимум.
Я говорю про RapidMiner — опенсорсную среду, которая при всей своей бесплатности некисло «уделывает» коммерческих конкурентов. Правда, сразу скажу, что разработчики всё равно её продают, а в опенсорс отдают только предпоследние версии. Дома можно попробовать потому, что есть вообще бесплатные сборки со всей-всей логикой с всего лишь двумя ограничениями — максимальный объем используемой памяти 1 Гб и работа только с обычными файлами (csv, xls и т.п.) в качестве источника данных. Естественно, в малом бизнесе это тоже не проблема.
Вот интерфейс. Вы закидываете данные, а потом просто перетаскиваете операторы в GUI, формируя процесс обработки данных От вас — только понимание того, что вы делаете… Весь код берёт на себя среда. «Под капот» можно, конечно, залезть, но в большинстве случаев это просто не надо.



У RM гораздо шире функциональные возможности по обработке, банально больше узлов. С другой стороны, в SPSS есть режимы «автопилота». Авто-модели (Auto Numeric, Auto Classifier) — перебирает несколько возможных моделей с разными параметрами, выбирает несколько лучших. Не сильно опытный аналитик может построить на таком адекватную модель. Она почти наверняка будет уступать в точности построенным опытным специалистом, но есть сам факт — можно построить модель ничего не понимая в этом. В RM есть аналог (Loop and Deliver Best), но он все же требует хотя бы выбрать модели и критерии выбора лучшего. Автоматическая предобработка данных (Auto Data Prep) — другая известная фишка SPSS — иначе и чуть более муторно реализована в RM.

В SPSS сборка данных выполняется одним узлом Automated Data Preparation, галочками проставляется, что нужно сделать с данными. В RapidMiner — собирается из атомарных узлов в произвольной последовательности.
По возможностям «сделать что угодно» RM выше, но, в конечном итоге, с помощью какой-то матери и некоторых усложнений можно получить тот же результат и в SAS. Но здесь совершенно другой подход — придётся переучиваться, если вы привыкли к архитектуре SAS. Ещё SAS предоставляет множество вертикальных решений — банки, ритейл. Платформа разговаривает с пользователем на его бизнес-языке. RM более абстрактен, в нём придётся самому формулировать, что есть что.
Не совсем правильно сравнивать эти два пакета, но важно для иллюстрации того, как работает RM. Oracle Demantra (и, очень грубо, все схожие продукты под конкретную индустрию или задачу)- это готовый пакет, заточенный под конкретные задачи закупок и поставок… Там есть конкретные операции — загрузили данные о продажах, получили прогноз по закупкам товара. Одна модель, очень много готовых шаблонов. Дорого, круто и под очень большой бизнес.
С другой стороны, в RM можно повторить всё то же самое, но половину логики придётся изобретать заново. Это очень удобно для data scientist’ов в плане кастомизации и гибкости конечного решения, но крайне сложно для бизнес-пользователей — они просто не увидят знакомых слов и инструментов

Итак, перед нами чистое поле для решения любых задач. Наиболее частые в России, решающиеся такими инструментами — это:
А это моя (и не только моя) любимая тема — метамоделирование. Для тех, кто немного в стороне от этого — разные модели часто находят разные взаимосвязи, формируя на одной и той же выборке разные результаты. И ошибаются часто тоже в разных местах. И это нужно использовать — составить ансамбль моделей (Model Ensemble) Например, оператор Vote (голосование) — учитываются «мнения» всех моделей, входящих в ансамбль и на выход выдается результат, набравший наибольшее количество «голосов». Или один из наиболее популярных среди «продвинутых» data scientist’ов метод Bagging (Bootstrap Aggregation) — обучение нескольких моделей на разных подвыборках исходных данных с последующим усреднением их результатов.
Что могу сказать по опыту нескольких переходов на RapidMiner: тут важно отметить, что с точки зрения Data Science впечатления положительны. Технологически немного хуже — очистка данных пошла труднее, мы уже привыкли к парадигме и простоте SPSS и SAS. Здесь нужно было больше перестраивать — всё делается совсем по-другому. Очень разные архитектурные реализации, поэтому сразу говорю — мигрировать самостоятельно будет достаточно сложно в плане компетенций специалистов. Учиться надо заново. Но для нас и заказчиков результат того стоил.
Очень много приятых мелких фишек. Например, имеет смысл сказать про «макросы» — это параметры работы процесса, которые можно использовать в любой его точке. Например, в качестве макроса можно использовать имя файла, дату его создания, среднее значение какого-либо атрибута данных, наилучшую достигнутую точность, номер итерации, последнее время запуска процесса. Часто выручает при создании нетривиальных операций обработки. К примеру, с помощью макроса может быть ограничено время выполнения операции, при этом порог времени не фиксируется, а является расчетным параметром — зависит от размера данных, времени суток (ночные оптимизации могут выполняться дольше).
Из недавнего — строили модель для прогнозирования пассажиропотока. Вот тут уже мы использовали RM на 100%, т.к. строили все «с нуля» и некуда было оглядываться, не нужно было переносить существующие процессы и пытаться их повторить на другом инструменте.
Возьмите свежего донора, то есть наберите любых данных, например, о продажах. Если нет своих — не беда, в комплекте даже бесплатного стартера несколько демо-наборов. Попробуйте посмотреть на свои данные через акселератор для преднастройки процессов. Там 4 готовых процесса, и они на встроенной модели строят обработчики. Поиграйте с данными прямо в GUI, посмотрите, как это круто. Экспериментируйте.
Вот ссылка на закачку [3] собранного релиза с официального сайта.
Если у вас данных мало — просто пользуйтесь, пока не надоест, компания прекрасно понимает, что их полную версию покупает только средний и большой бизнес. Если данных мало — вам будет важно знать, что цены фиксированные, не зависят от заказчика.
Если чувствуете, что штука крутая, но хочется освоить быстро — приходите к нам в учебный центр [4]. Мы — официальный партнёр RapidMiner, и по итогам курсов выдаются сертификаты.От вас — базовые знания матстатистики (хотя бы представлять, что такое выбросы, среднее значение, нормальное распределение и дисперсия) и базовые знания компьютера. Мы дадим свои наборы данных от одного немецкого телекома, если у вас нет своего (или приносите в обезличенном виде его тоже) и вместе соберём кейс по прогнозированию оттока клиентов. А потом смоделируем модель исходя из того, сколько денег есть на их удержание. Например, есть 10 тысяч рублей и 100 000 клиентов — нужно выбрать из них тех, кого дешевле удержать, и кто больше принесет компании денег в перспективе. Попасть в наиболее вероятного клиента и максимизировать конечную выгоду (это, кстати, называется Uplift Modeling или, если вы больше привыкли к терминологии SAS — Incremental Response Modeling).
И ещё раз: версия Starter полноценная с точки зрения аналитического функционала, а, значит, proof-of-concept вашей идеи для вашей компании можно сделать абсолютно бесплатно.
Автор: convex
Источник [5]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/open-source/87515
Ссылки в тексте:
[1] не купили презервативы: http://habrahabr.ru/company/croc/blog/194388/
[2] мозг: http://www.braintools.ru
[3] закачку: https://rapidminer.com/my-account/#downloads
[4] в учебный центр: http://crocok.ru/it-courses/rapidminer/
[5] Источник: http://habrahabr.ru/post/254467/
Нажмите здесь для печати.