Рубрика «анализ данных» - 19

Мы постоянно встречаемся в своей жизни с новыми людьми, и стоит констатировать, что помимо хороших друзей нам попадаются мутные товарищи, а иногда и отъявленные мошенники. Любовь наших сограждан оставить свой след в интернет и старания наших ИТ-компаний по автоматизации всего и вся позволяют нам довольно оперативно собирать интересующую информацию о конкретных персонах по открытым источникам. Чтобы это делать быстро и качественно, нам нужно владеть простой методологией разведывательной работы и знать, где и какую информацию о человеке можно добыть в Интернет.
Читать полностью »

Школа Данных «Билайн»: с Наступающим - 1

Итак, заканчивается 2016 год. Для нас он был очень активным. Было 6 выпусков нашего курса для аналитиков, 5 выпусков курса для менеджеров (Data-MBA). Мы запустили курс в Санкт-Петербурге и уже провели первый выпуск. В партнерстве мы также обучали студентов Высшей Школы Экономики и Российской Экономической Школы, проводили мастер-классы в Сколково, участвовали в десятках хакатонов по всей стране, консультировали ведущие компании касательно применения аналитики и монетизации данных. В этом году один из наших преподавателей стал первым в мире в рейтинге Kaggle.
Читать полностью »

В данной статье будет описан только общий алгоритм на примере Facebook. Однако такой же подход можно использовать повсюду.

Задача

На основе существующего контента (за последние 30 дней) на данной странице Facebook определить какие записи потенциально будут более популярными.
Читать полностью »

Система отчётов: как получать 50 млн. отчетов и сохранить Дзен - 1

Чем сложнее программный продукт, чем больше он взаимодействует со сторонними системами (часто не менее сложными), тем выше вероятность сбоев в работе. Тестирование помогает найти большинство багов перед выкатыванием релиза, но иногда что-то может проскользнуть. И чтобы быстро получать подробную информацию о факте сбоя и сопутствующих условиях, в наших продуктах широко используется система отчётов. О её устройстве мы хотим сегодня рассказать.Читать полностью »

image Всем привет! Сегодня мы поговорим о том, зачем нужна статистика использования продукта, помимо ее очевидной пользы в деле проверки лицензионных ограничений и построения адекватных тестов для последующих релизов продукта. Предметом рассказа станет наш недавний опыт.

Совсем скоро состоится релиз новой версии хостинговой панели Plesk под названием Plesk Onyx. Начиная с этой версии Plesk прекращает поддержку 32-битной архитектуры. Решение об этом было принято после рассмотрения нескольких ключевых аспектов. Индустрия разработки ПО постепенно движется к повсеместному переходу на 64-битные сборки. Многие производители софта уже отказались от 32-битной версии своих продуктов, и новые шаги в этом направлении происходят непрерывно. Дистрибутив RHEL 7, используемый в качестве основы CentOS, выпускается только для 64-разрядных систем – а между тем CentOS является одной из самых популярных среди пользователей Plesk операционных систем. Кроме того, сторонники 32-разрядных ОС лишают себя возможности воспользоваться такой функциональностью Plesk, как работа с Docker и MongoDB, в силу того, что эти продукты могут быть установлены только на 64-разрядные операционные системы.

Однако рынок B2B2C, на который ориентирован Plesk, в силу своей специфики достаточно инертен, поэтому выглядит целесообразным дать всей этой длинной цепочке шанс сориентироваться и плавно переехать с одной архитектуры на другую. Для этого мы решили адресно оповестить тех из наших клиентов, чей бизнес может быть в наибольшей степени затронут грядущими изменениями.

Окей, гугл – как понять, кого именно необходимо оповестить? «Отзовитесь, динозавры!» Без статистики использования продукта здесь не справиться, но чтобы получить из неё что-то внятное, придется потрудиться. Читать полностью »

Слушайте и смотрите новую подборку лекций Техносферы Mail.Ru. На этот раз представляем в открытом доступе весенний курс «Введение в анализ данных», на котором слушателей знакомят со сферой анализа данных, основными инструментами, задачами и методами, с которыми сталкивается любой исследователь данных в работе. Курс преподают Евгений Завьялов (аналитик проекта Поиск Mail.Ru, занимающийся извлечением знаний, полезных бизнесу из данных, генерируемых поисковым движком и десктопными приложениями), Михаил Гришин (программист-исследователь из отдела анализа данных) и Сергей Рыбалкин (старший программист из студии Allods Team).

Лекция 1. Введение в Python

Из первой лекции вы узнаете, что такое анализ данных, какие инструменты используют для анализа данных, а также как работает Python.

Читать полностью »

ANOVA, или кто комментирует? - 1

В комментариях проскальзывала мысль, что люди мало комментируют статьи на Habrahabr, т.к. боятся потерять карму. Получается, что в основном пишут те, у кого карма побольше. Попробуем исследовать эту гипотезу подробнее и получить результаты, подкрепленные не только интуитивно, но и статистически.
Читать полностью »

Можно ли предсказать поведение толпы? Ученые из Института наукоемких компьютерных технологий (НИИ НКТ) при Университете ИТМО взялись решить эту задачу. Они создали систему, моделирующую варианты развития событий в местах массового скопления людей, будь то стадион во время футбольного Чемпионата Мира или святые места в период массового паломничества.

От хаоса — к модели

Модель строится на основе особенностей толпы, таких, как социальная структура, и внешних факторов, — например, погодных условий или политической обстановки. Также задаются параметры территории, где происходит действо. В результате, ученые видят наглядную картину поведения людей в заданных условиях. Выглядит это примерно так:


Читать полностью »

Мониторинг или анализ лог-журналов, касается ли это темы безопасности, анализа нагрузки, или создания статистики и аналитики для продажника или кормежки какой-либо нейронной сети, часто связан со множеством проблем.

К сожалению часто связано это и с человеческим фактором, а именно с нежеланием или непониманием некоторых простых довольно вещей многими разработчиками программ, API и сервисов, логирующих в журнал ту самую, так необходимую для мониторинга информацию.
Ниже именно то, как это часто делается и почему так дальше жить нельзя. Мы поговорим про форматы логов, разберем пару примеров, напишем несколько регулярных выражений и т.д…

Дорогие коллеги, конечно же это ваше дело, как и что вы пишете в логи своей программы, однако задуматься только ли для себя вы это делаете, все же стоит… Возможно, кроме вас, на эту строчку сейчас с отчаяньем смотрит какой-нибудь пользователь вашей программы, а то и умный до нельзя, но матерящийся почем зря, бот.

Меня же написать этот пост, заставил очередной фэйл с непростым таким для анализа форматом лога, приведший к очередной "уязвимости", вплоть до написания готового эксплойта в процессе поиска.

И если я этой статьей сподвигну хоть одного разработчика задуматься, — это уже будет большое дело, и возможно, в следующий раз анализируя журналы, писаные его программой, его не помянут грязным словом, а напротив благодарно похвалят.

Читать полностью »

Проект Wikiverse: визуализация информационной вселенной Википедии - 1

Википедия — огромный информационный ресурс, где есть ответы на очень многие вопросы. Здесь можно начать с поиска ответа на вопрос о способах колонизации Марса и закончить изучением статьи о головоногих моллюсках Мексиканского залива. Статьи связаны друг с другом, определение того либо иного незнакомого термина, встретившегося в статье, можно найти, просто кликнув по самому термину. В большинстве случаев имена собственные, термины, названия видов животных и растений залинкованы со статьями, где рассказывается, что это такое.

Авторы проекта Wikiverse решили наглядно показать связи между разделами, подразделами и отдельными статьями Википедии. Для этого была создана визуальная модель информационной вселенной Википедии. Вся онлайн-энциклопедия (англоязычная версия) представлена в виде шара, внутри которого размещаются созвездия и кластеры созвездий — статьи схожей тематики. Это могут быть материалы об определенном времени истории человечества, изобразительном искусстве, сфере технологий или любых других темах.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js