Рубрика «data analysis»

3. Elastic stack: анализ security логов. Дашборды - 1

В прошлых статьях мы немного ознакомились со стеком elk и настройкой конфигурационного файла Logstash для парсера логов, в данной статье перейдем к самому важному с точки зрения аналитики, то что вы хотите увидеть от системы и ради чего все создавалось — это графики и таблицы объединенные в дашборды. Сегодня мы поближе ознакомимся с системой визуализации Kibana, рассмотрим как создавать графики, таблицы, и в результате построим простенький дашборд на основе логов с межсетевого экрана Check Point.
Читать полностью »

2. Elastic stack: анализ security логов. Logstash - 1

В прошлой статье мы познакомились со стеком ELK, из каких программных продуктов он состоит. И первая задача с которой сталкивается инженер при работе с ELK стеком это отправление логов для хранения в elasticsearch для последующего анализа. Однако, это просто лишь на словах, elasticsearch хранит логи в виде документов с определенными полями и значениями, а значит инженер должен используя различные инструменты распарсить сообщение, которое отправляется с конечных систем. Сделать это можно несколькими способами — самому написать программу, которая по API будет добавлять документы в базу либо использовать уже готовые решения. В рамках данного курса мы будем рассматривать решение Logstash, которое является частью ELK stack. Мы посмотрим как можно отправить логи с конечных систем в Logstash, а затем будем настраивать конфигурационный файл для парсинга и перенаправления в базу данных Elasticsearch. Для этого в качестве входящей системы берем логи с межсетевого экрана Check Point.
Читать полностью »

ок.tech: Data Толк #4 новогодний выпуск - 1

Если вспомнить практику анализа данных 10 лет назад и сравнить её с тем, что есть сейчас, то станет очевидно —за декаду Data Science проделал гигантский путь. Компьютерное зрение, рекомендательные системы, большие данные, искусственный интеллект — в 2010 эти слова использовались в основном только передовыми ИТ-компаниями. Никто не мог представить, что всего лишь за 10 лет эти технологии изменят мир.

Каким бы был Netflix без рекомендательной системы? Кто будет подсказывать какие сериальчики смотреть по вечерам. Или Apple music, в котором вам ничего не рассказывают про новые альбомы в стиле христианский блэк-метал? Только подумайте сколько времени займет выдача кредита без применения скоринговой системы? Представьте себе YouTube, который ничего не показывает в разделе «Рекомендованные видео». Хотя… при таком сценарии я бы больше спал, а не смотрел смешные видосы про котов до 3-х часов ночи. Мир ждет, что водителей заменят беспилотные автомобили, хотя в 2010 это было научной фантастикой. Да чего там, Tinder подбирает пары на основе алгоритмов машинного обучения, люди женятся, у них рождаются дети, если призадуматься, то окажется, что фактически это дети искусственного интеллекта Sic.

Мы многим обязаны Data Science, поэтому 16 декабря в московском офисе Одноклассников соберемся и вместе с коллегами из OK, Сбербанка, VK и X5 Retail Group проведем ок.tech: Data Толк #4 новогодний выпуск. Поговорим про итоги года и десятилетия в области анализа и обработки данных. Какой была индустрия раньше, что она представляет сейчас и какие сюрпризы нас ждут в будущем, когда Илон Маск заменит людей огромными человекоподобными роботами. Ответы на все эти вопросы вы получите на нашем мероприятии.

Приходите! Будет полезно, интересно и весело!
Зарегистрироваться на мероприятие.

Под катом вас ждут описания докладов и расписание.
Читать полностью »

Здравствуйте, дорогие друзья. Вот, наконец-то, и добрался я до написания второй статьи, посвященной Maltego. Кто не читал первую – обязательно прочитайте вот тут. В ней я писал, что же такое Maltego в целом, а в этой статье я расскажу, с чем его едят. Картинок будет очень много.

Данная статья не совсем туториал по работе. Я, конечно, постараюсь показать максимум неочевидных вещей, с которыми столкнулся в процессе работы по первости, но лучший способ познать какой-либо фреймворк – это просто начать им пользоваться и нарабатывать опыт.Читать полностью »

В первой публикации рассказывалось о том, что есть подзабытая теорема Эрдёша-Реньи, из которой следует, что в случайном ряде, длины N, с вероятностью близкой к 1 существует подряд из одинаковых значений длиной log_2{N}. Указанное свойство случайной величины можно использовать для ответа на вопрос: «После обработки больших данных, подчиняется ли остаточный ряд закону случайных чисел или нет?»

Ответ на такой вопрос определялся не на основании тестов соответствия нормальности распределения, а на основании свойств самого остаточного ряда.
Читать полностью »

При просмотре профилей пользователей соцсетей, невольно задаешься вопросом, а сколько информации лежит в открытых источниках? Понятно, что много. Но как это посчитать? И у кого еще, кроме спецслужб и корпораций уровня Google или Microsoft, есть ресурсы и механизмы, чтобы это систематизировать? Создатели ПО Maltego уверяют — у любого. В этой статье я разберу практические примеры, пробегусь по функционалу и принципам работы этого инструмента.

4 релиза Maltego. Принципы работы и возможности - 1

Рассматривать мы будем именно коммерческий релиз. Потому что Free версия — это хорошо, но посмотреть возможности, которые можно получить только за немалую копеечку от сторонних компаний, вроде Social Links, гораздо интереснее.

Сразу скажу: статья будет, скорее всего, не одна. По мере получения доступа к различным дополнительным плюшкам коммерческих релизов Maltego постараюсь писать про то, что конкретно каждая опция расширяет, и нужна ли она вообще.

Итак, дамы и господа, приступим. Читать полностью »

Любой аналитик, в начале своей работы, проходит ненавистный этап определения идентификации параметров распределения. Потом, с наработкой опыта, для него согласование полученных остаточных разбросов означает, что какой-то этап, в анализе Big Data, пройден и можно двигаться дальше. Уже нет необходимости проверять сотни моделей на соответствие различным уравнениям регрессии, искать отрезки с переходными процессами, составлять композицию моделей. Терзать себя сомнениями: «Может есть, еще какая-нибудь модель, которая больше подходит?»
Подумал: «А что, если пойти от противного. Посмотреть, что может сделать белый шум. Может ли белый шум создать, что-то, что наше внимание сопоставит со значимым объектом из нашего опыта?»
Белый шум рисует черный квадрат - 1
Рис. Белый шум (файл взят из сети, размер 448х235).

По этому вопросу рассуждал так:
1. Какова вероятность, что появится горизонтальные и вертикальные линии, заметной длины?
2. Если они могут появиться, то какова вероятность, что они совпадут своим началом по одной из координат и составят прямоугольную фигуру?
Дальше по тексту, объясню, как эти задачи связались с анализом Big Data.
Читать полностью »

Всем привет. В этой статье я расскажу о нашем опыте участия в соревновании по анализу данных Data Mining Cup 2019 (DMC) и о том, как нам удалось войти в ТОП-10 команд и принять участие в очном финале чемпионата в Берлине.

image
Читать полностью »

Между идеальным алгоритмом машинного обучения в вакууме и его применением на реальных данных часто лежит пропасть. Вроде бы берешь статью: алгоритм есть, сходимость для данных такого-то типа есть — бери и применяй. Но почему-то оказывается, что твоих данных недостаточно для обучения, да и отличаются они от модельных из статьи, потому что настоящие, не синтетические.

Обычное дело в обосновании алгоритма ввести допущения о чистоте данных и их распределении, которых в реальной жизни не найдёшь. Например, автор статьи экспериментирует на фотографиях взрослых знаменитостей, и все у него замечательно распознается и классифицируется, а в нашем реальном примере попадаются еще и дети, и мультяшные персонажи, и на них всё внезапно ломается. Но есть люди, которые умеют с этим справляться, да так, что пропасть между теорией и практикой перестает казаться неприступной, и, стоит показать как, сразу находятся и другие желающие ее преодолеть.

Используем данные на практике - 1
Читать полностью »

Привет!

Этот пост написан специально для студентов. Если вы уже состоявшийся профессионал, лучше посмотрите, как в gif’ках выглядит жизнь Open Source разработчика, а если вы студент, да еще с
ИТ-шной специальностью, добро пожаловать под кат.

Чем хороша наша программа стажировок Sberseasons? У нас есть много больших интересных проектов на выбор. Они завязаны на современный технологический стек, и их потом можно положить в свое портфолио. Плюс, её можно совмещать с учебой. Разумеется, она у нас оплачивается.

Стажировка доступна сразу по 18 IT-направлениям. О некоторых из них рассказываем подробнее.

image
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js