Рубрика «data mining» - 73

Неделю назад я создал опрос, направленный на выявление факторов лидерства. Получилось всего 261 ответ, что, конечно, мало для полного исследования, но уже достаточно, чтобы выявить некоторые закономерности.

Особенно интересны комментарии участников опроса:

наберите в поиске «лидерские качества», «лидерство». Обладание какими-то супер-знаниями — это последнее, что вы там увидите. Тема лидерства топтана огромным количеством психологов. Наверное было бы интересно опровергнуть их теории, но доказывать их правильность не вижу смысла.

Или, например, такие:

Я думаю, что для лидера гораздо важнее другие качества:
Инициативность — он постоянно должен что-то делать, не дожидаясь указания от начальника.
Открытость к людям — стремление помочь им с их проблемами (но без фанатизма).
Харизма — банально, у человека который шумно рассказывает анекдоты, которые поднимают всем настроение больше шансов быть лидером, чем у человека который изучает очередной ЯП за компом и ни с кем не общается.

И даже такие:

По сути, это «авторитет». Что бы им стать нужно два фактора:
— Уметь быть убедительным, убеждать. Развитая речь и система аргументации, жизненный опыт (есть что рассказать)
— Поддерживать внутри коллектива справедливость, систему понятий ;-)
В итоге получается человек, с которым комфортно, на которого можно положиться, который никогда не паникует и не теряется. К таким людям внутри коллектива остальные тянутся, вот и получается лидер.

Но это все теоретизирование, а что же нам расскажут результаты опроса?
Читать полностью »

RapidMiner – Data Mining и BigData у вас дома, быстро и без подготовки (почти) - 1

Пока маркетологи обмазываются BigData и бегают в таком виде на пресс-конференциях, я предлагаю просто скачать бесплатный инструмент с тестовыми наборами данных, шаблонами процессов и начать работать.

Закачка, установка и получение первых результатов — минут 20 максимум.

Я говорю про RapidMiner — опенсорсную среду, которая при всей своей бесплатности некисло «уделывает» коммерческих конкурентов. Правда, сразу скажу, что разработчики всё равно её продают, а в опенсорс отдают только предпоследние версии. Дома можно попробовать потому, что есть вообще бесплатные сборки со всей-всей логикой с всего лишь двумя ограничениями — максимальный объем используемой памяти 1 Гб и работа только с обычными файлами (csv, xls и т.п.) в качестве источника данных. Естественно, в малом бизнесе это тоже не проблема.Читать полностью »

Немного о лаборатории Data Science в Билайне - 1

Привет! Меня зовут Александр Крот, я отвечаю за разработку алгоритмов машинного обучения и интеллектуального анализа данных в компании Билайн, а также за подготовку и отбор специалистов по работе с данными под руководством Сергея Марина, который ранее знакомил Вас с работой нашего подразделения Big Data. Я уже писал про отдельные аспекты Big Data и Machine Learning, но сегодня я расскажу, как это устроено на практике, а именно — как мы в Билайн решаем задачи, связанные с анализом больших данных, как отбираем специалистов, какие инструменты и методы применяем на практике.
Читать полностью »

Big Data в Билайне: реальный опыт - 1

Привет! Меня зовут Александр Крот, я отвечаю за разработку алгоритмов машинного обучения и интеллектуального анализа данных в компании Билайн, а также за подготовку и отбор специалистов по работе с данными под руководством Сергея Марина, который ранее знакомил Вас с работой нашего подразделения Big Data. Я уже писал про отдельные аспекты Big Data и Machine Learning, но сегодня я расскажу, как это устроено на практике, а именно — как мы в Билайн решаем задачи, связанные с анализом больших данных, как отбираем специалистов, какие инструменты и методы применяем на практике.
Читать полностью »

Big Data на практике: ожидание VS реальность - 1Привет, хабр!

После последней публикации «Ваш персональный курс по Big Data» мне пришло несколько сотен писем с вопросами, читая которые, я с удивлением обнаружил, что люди очень сильно погружаются в теорию, уделяя мало времени решению практических задач, в которых навыки необходимы совершенно другие. Cегодня я расскажу, какие сложности появляются на практике и с чем приходится работать при решении реальных задач.
Читать полностью »

Хочу поделиться опытом участия в конкурсе Kaggle и алгоритмами машинного обучения, с помощью которых добрался до 18-го места из 1604 в конкурсе Avazu по прогнозированию CTR (click-through rate) мобильной рекламы. В процессе работы попытался воссоздать оригинальный алгоритм «Мактрикснета», тестировал несколько вариантов логистической регрессии и работал с характеристиками. Обо всём этом ниже, плюс прикладываю полный код, чтобы можно было посмотреть, как всё работает.

Рассказ делю на следующие разделы:
1. Условия конкурса;
2. Создание новых характеристик;
3. Логистическая регрессия – прелести адаптивного градиента;
4. Матрикснет – воссоздание полного алгоритма;
5. Ускорение машинного обучения в Python.
Читать полностью »

Предлагаю вниманию хабрапользователей небольшую статью, описывающую практическую сторону применения такой области, как имитационное моделирование.

Постановка задачи (описание процесса)

В логистический центр по согласованному с поставщиком календарю поставок прибывает известное количество товаров одного типа. При переполнении склада заявка на поставку товаров заведомо отменяется. Товар поступает, хранится и передается в розничную точку продаж в упаковках по 8 шт. По прибытию машину встречает сотрудник центра (кладовщик), проверяет наличие необходимой сопроводительной документации, актов соответствия/качества, первичной бухгалтерской документации и сопровождает машину в зону разгрузки.

В зоне разгрузки кладовщик в присутствии экспедитора и при помощи погрузочного оборудования (электрический погрузчик) проводит прием и визуальный осмотр товара. Далее перемещает его в зону входного контроля. Специалист по качеству (контроллер) проводит входной контроль товара. При допуске, товары, при помощи специалиста по качеству, перемещаются в зону ожидания для дальнейшего размещения на стеллажах участка хранения. При обнаружении товара не соответствующего входным параметрам перемещает его в изолятор брака для осуществления дальнейшего возврата поставщику.

Комплектовщики при помощи погрузочного оборудования (электрический погрузчик) комплектуют в зоне отгрузки поставку в розничную точку продаж. Комплектация проводится при достижении остатка товара в розничной точке продаж точки восполнения запаса (точки перезаказа).

После комплектации стандартной партии отгрузки товар передается в точку розничных продаж для реализации.
Необходимо разработать модель представленного процесса для дальнейшего проведения оптимизационных экспериментов (например, определения точки перезаказа при условии отсутствия нулевого остатка в розничной точке продаж).
Читать полностью »

24-28 августа 2015 года в Санкт-Петербурге пройдёт IX Российская летняя школа по информационному поиску «RuSSIR 2015». В этом году школу организуют Лаборатория интернет-исследований НИУ ВШЭ в Санкт-Петербурге и Российский семинар по оценке методов информационного поиска «РОМИП».

Каждый год у RuSSIR есть своя особая тема, так или иначе связанная с информационным поиском. В этом году основная тема летней школы – анализ социальных сетей. Читайте ниже о том, сколько у вас осталось дней до подачи статьи или заявки на курс!

RuSSIR 2015: дедлайн подачи статей приближается - 1

Читать полностью »

Нейропластичность в искусственных нейронных сетях - 1 Привет, давно не виделись. В этом посте мне хотелось бы рассказать о таком относительно новом понятии в машинном обучении, как transfer learning. Так как я не нашел какого-либо устоявшегося перевода этого термина, то и в названии поста фигурирует хоть и другой, но близкий по смыслу термин, который как бы является биологической предпосылкой к формализации теории передачи знаний от одной модели к другой. Итак, план такой: для начала рассмотрим биологические предпосылки; после коснемся отличия transfer learning от очень похожей идеи предобучения глубокой нейронной сети; а в конце обсудим реальную задачу семантического хеширования изображений. Для этого мы не будем скромничать и возьмем глубокую (19 слоев) сверточную нейросеть победителей конкурса imagenet 2014 года в разделе «локализация и классификация» (Visual Geometry Group, University of Oxford), сделаем ей небольшую трепанацию, извлечем часть слоев и используем их в своих целях. Поехали.
Читать полностью »

«Безграмотными в 21 веке будут не те,
кто не умеет читать и писать,
а те, кто не умеет учиться,
разучиваться и переучиваться»

Элвин Тоффлер

У ИТ-специалистов могут возникать задачи, связанные с анализом производительности оборудования или анализом результатов различных генераторов нагрузки (ioMeter, Vdbench и прочее). В большинстве случаев для этих целей используется Excel с построением временных рядов, с нахождением основных описательных статистик и попытками это все как-то проанализировать. Существует альтернативное средство более быстрого и удобного анализа описательных статистик с разнообразными диаграммами и возможностью создания web-приложения для общего доступа. Касаться настоящей статистики с различными методами анализа данных не буду, только базовая описательная статистика (без проверки тестов и даже p-значения не будет) и разные диаграммы.

В этой статье я опишу один из вариантов того, как можно проанализировать такую информацию, представлять её в виде диаграмм (трафик!), и все это в виде web-приложения. Как следует из названия статьи – реализовано это на R, с пакетом (фреймворком) для web-приложений к R – Shiny.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js