Рубрика «data analysis»

Привет! Сегодня я расскажу, как развивается сфера Data Science. 2020 год стал переломным не только для мира в целом, сфера данных активно совершенствуется и сегодня можно уже подводить итоги года. Встречайте тренды DS в 2020-2021 году.

Главные тренды Data Science 2020 года, которые будут актуальны в 2021-м - 1

Читать полностью »

Если вы пока ещё не знаете как транслировать данные напрямую заказчику в подсознание или, на худой конец, текст сообщения в slack, вам пригодится информация о том, как сделать процесс интерпретации таблиц более быстрым и комфортным.

Например, в excel для этого используется условное форматирование и спарклайны. А в этой статье мы посмотрим как визуализировать данные с помощью Python и библиотеки pandas: будем использовать свойства DataFrame.style и Options and settings.

Читать полностью »

TS Total Sight. Средство сбора событий, анализа инцидентов и автоматизации реагирования на угрозы - 1

Добрый день, в прошлых статьях мы познакомились с работой ELK Stack. А теперь обсудим возможности, которые можно реализовать специалисту по ИБ в использовании данных систем. Какие логи можно и нужно завести в elasticsearch. Рассмотрим, какую статистику можно получить, настраивая дашборды и есть ли в этом профит. Каким образом можно внедрить автоматизацию процессов ИБ, используя стек ELK. Составим архитектуру работы системы. В сумме, реализация всего функционала это очень большая и тяжелая задача, поэтому решение выделили в отдельное название — TS Total Sight.
Читать полностью »

В части первой описывалось, что данная публикация сделана на основе датасета результатов кадастровой оценки объектов недвижимости в Ханты-Мансийском АО.

Практическая часть представлена в виде шагов. Проводилась вся очистка в Excel, так как самый распространенный инструмент и описанные операции может повторить большинство специалистов знающих Excel. И достаточно неплохо подходит для работы в «рукопашную».

Нулевым этапом поставлю работы по запуску, сохранению файла, так как он размером 100 мб, то при количестве этих операций десятки и сотни на них уходит существенное время.
Открытие, в среднем, — 30 сек.
Сохранение – 22 сек.

Первый этап начинается с определения статистических показателей датасета.

Таблица 1. Статпоказатели датасета
Очистка данных, как игра «Камень, Ножницы, Бумага». Это игра с финишем или без? Часть 2. Практическая - 1
Читать полностью »

3. Elastic stack: анализ security логов. Дашборды - 1

В прошлых статьях мы немного ознакомились со стеком elk и настройкой конфигурационного файла Logstash для парсера логов, в данной статье перейдем к самому важному с точки зрения аналитики, то что вы хотите увидеть от системы и ради чего все создавалось — это графики и таблицы объединенные в дашборды. Сегодня мы поближе ознакомимся с системой визуализации Kibana, рассмотрим как создавать графики, таблицы, и в результате построим простенький дашборд на основе логов с межсетевого экрана Check Point.
Читать полностью »

2. Elastic stack: анализ security логов. Logstash - 1

В прошлой статье мы познакомились со стеком ELK, из каких программных продуктов он состоит. И первая задача с которой сталкивается инженер при работе с ELK стеком это отправление логов для хранения в elasticsearch для последующего анализа. Однако, это просто лишь на словах, elasticsearch хранит логи в виде документов с определенными полями и значениями, а значит инженер должен используя различные инструменты распарсить сообщение, которое отправляется с конечных систем. Сделать это можно несколькими способами — самому написать программу, которая по API будет добавлять документы в базу либо использовать уже готовые решения. В рамках данного курса мы будем рассматривать решение Logstash, которое является частью ELK stack. Мы посмотрим как можно отправить логи с конечных систем в Logstash, а затем будем настраивать конфигурационный файл для парсинга и перенаправления в базу данных Elasticsearch. Для этого в качестве входящей системы берем логи с межсетевого экрана Check Point.
Читать полностью »

ок.tech: Data Толк #4 новогодний выпуск - 1

Если вспомнить практику анализа данных 10 лет назад и сравнить её с тем, что есть сейчас, то станет очевидно —за декаду Data Science проделал гигантский путь. Компьютерное зрение, рекомендательные системы, большие данные, искусственный интеллект — в 2010 эти слова использовались в основном только передовыми ИТ-компаниями. Никто не мог представить, что всего лишь за 10 лет эти технологии изменят мир.

Каким бы был Netflix без рекомендательной системы? Кто будет подсказывать какие сериальчики смотреть по вечерам. Или Apple music, в котором вам ничего не рассказывают про новые альбомы в стиле христианский блэк-метал? Только подумайте сколько времени займет выдача кредита без применения скоринговой системы? Представьте себе YouTube, который ничего не показывает в разделе «Рекомендованные видео». Хотя… при таком сценарии я бы больше спал, а не смотрел смешные видосы про котов до 3-х часов ночи. Мир ждет, что водителей заменят беспилотные автомобили, хотя в 2010 это было научной фантастикой. Да чего там, Tinder подбирает пары на основе алгоритмов машинного обучения, люди женятся, у них рождаются дети, если призадуматься, то окажется, что фактически это дети искусственного интеллекта Sic.

Мы многим обязаны Data Science, поэтому 16 декабря в московском офисе Одноклассников соберемся и вместе с коллегами из OK, Сбербанка, VK и X5 Retail Group проведем ок.tech: Data Толк #4 новогодний выпуск. Поговорим про итоги года и десятилетия в области анализа и обработки данных. Какой была индустрия раньше, что она представляет сейчас и какие сюрпризы нас ждут в будущем, когда Илон Маск заменит людей огромными человекоподобными роботами. Ответы на все эти вопросы вы получите на нашем мероприятии.

Приходите! Будет полезно, интересно и весело!
Зарегистрироваться на мероприятие.

Под катом вас ждут описания докладов и расписание.
Читать полностью »

Здравствуйте, дорогие друзья. Вот, наконец-то, и добрался я до написания второй статьи, посвященной Maltego. Кто не читал первую – обязательно прочитайте вот тут. В ней я писал, что же такое Maltego в целом, а в этой статье я расскажу, с чем его едят. Картинок будет очень много.

Данная статья не совсем туториал по работе. Я, конечно, постараюсь показать максимум неочевидных вещей, с которыми столкнулся в процессе работы по первости, но лучший способ познать какой-либо фреймворк – это просто начать им пользоваться и нарабатывать опыт.Читать полностью »

В первой публикации рассказывалось о том, что есть подзабытая теорема Эрдёша-Реньи, из которой следует, что в случайном ряде, длины N, с вероятностью близкой к 1 существует подряд из одинаковых значений длиной log_2{N}. Указанное свойство случайной величины можно использовать для ответа на вопрос: «После обработки больших данных, подчиняется ли остаточный ряд закону случайных чисел или нет?»

Ответ на такой вопрос определялся не на основании тестов соответствия нормальности распределения, а на основании свойств самого остаточного ряда.
Читать полностью »

При просмотре профилей пользователей соцсетей, невольно задаешься вопросом, а сколько информации лежит в открытых источниках? Понятно, что много. Но как это посчитать? И у кого еще, кроме спецслужб и корпораций уровня Google или Microsoft, есть ресурсы и механизмы, чтобы это систематизировать? Создатели ПО Maltego уверяют — у любого. В этой статье я разберу практические примеры, пробегусь по функционалу и принципам работы этого инструмента.

4 релиза Maltego. Принципы работы и возможности - 1

Рассматривать мы будем именно коммерческий релиз. Потому что Free версия — это хорошо, но посмотреть возможности, которые можно получить только за немалую копеечку от сторонних компаний, вроде Social Links, гораздо интереснее.

Сразу скажу: статья будет, скорее всего, не одна. По мере получения доступа к различным дополнительным плюшкам коммерческих релизов Maltego постараюсь писать про то, что конкретно каждая опция расширяет, и нужна ли она вообще.

Итак, дамы и господа, приступим. Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js