Рубрика «graphs»

Ваш выход, граф: как мы не нашли хороший сетевой граф и создали свой

2019-11-08 в 8:10, admin, рубрики: analysis, criminalistics, cybercrime, cybersecurity, graph database, graphs, software, анализ, графовые базы данных, графы, информационная безопасность, компьютерная безопасность, компьютерная криминалистика, криминалистика, Сетевые технологии

Ваш выход, граф: как мы не нашли хороший сетевой граф и создали свой - 1

Расследуя дела, связанные с фишингом, бот-сетями, мошенническими транзакциями и преступными хакерскими группами, эксперты Group-IB уже много лет используют графовый анализ для выявления разного рода связей. В разных кейсах существуют свои массивы данных, свои алгоритмы выявления связей и интерфейсы, заточенные под конкретные задачи. Все эти инструменты являлись внутренней разработкой Group-IB и были доступны только нашим сотрудникам.

Графовый анализ сетевой инфраструктуры (сетевой граф) стал первым внутренним инструментом, который мы встроили во все публичные продукты компании. Прежде чем создавать свой сетевой граф, мы проанализировали многие подобные разработки на рынке и не нашли ни одного продукта, который бы удовлетворял нашим собственным потребностям. В этой статье мы расскажем о том, как мы создавали сетевой граф, как его используем и с какими трудностями столкнулись.

Дмитрий Волков, CTO Group-IB и глава направления киберразведки Читать полностью »

Ускоряем распределенную обработку больших графов с помощью вероятностных структур данных и не только

2019-08-26 в 13:36, admin, рубрики: algorithms, Apache Spark, big data, data mining, data structures, graphs, Алгоритмы, Блог компании Одноклассники, машинное обучение

Ускоряем распределенную обработку больших графов с помощью вероятностных структур данных и не только - 1

Одним из самых ценных ресурсов любой социальной сети является "граф дружб" — именно по связям в этом графе распространяется информация, к пользователям поступает интересный контент, а к авторам контента конструктивный фидбэк. При этом граф является еще и важным источником информации, позволяющим лучше понять пользователя и непрерывно совершенствовать сервис. Однако в тех случаях когда граф разрастается, технически извлекать из него информацию становится все сложнее и сложнее. В данной статье мы поговорим о некоторых трюках, используемых для обработки больших графов в OK.ru.

Читать полностью »

Нестандартная кластеризация, часть 3: приёмы и метрики для кластеризации временных рядов

2017-07-27 в 6:55, admin, рубрики: cluster, clustering, data mining, graphs, metrics, review, time series, математика, машинное обучение

Пока другие специалисты по машинному обучению и анализу данных выясняют, как прикрутить побольше слоёв к нейронной сети, чтобы она ещё лучше играла в Марио, давайте обратимся к чему-нибудь более приземлённому и применимому на практике.

Кластеризация временных рядов — неблагодарное дело. Даже при группировке статических данных часто получаются сомнительные результаты, что уж говорить про информацию, рассеянную во времени. Однако нельзя игнорировать задачу, только потому что она сложна. Попробуем разобраться, как выжать из рядов без меток немного смысла. В этой статье рассматриваются подтипы кластеризации временных рядов, общие приёмы и популярные меры расстояния между рядами. Статья рассчитана на читателя, уже имевшего дело с последовательностями в data science: о базовых вещах (тренд, ARMA/ARIMA, спектральный анализ) рассказываться не будет.

Нестандартная кластеризация, часть 3: приёмы и метрики для кластеризации временных рядов - 1

Читать полностью »

Интересные алгоритмы кластеризации, часть вторая: DBSCAN

2017-02-20 в 6:46, admin, рубрики: cluster, clustering, data mining, dbscan, exotic clusters, graphs, manifold, python, sklearn, Алгоритмы, математика, машинное обучение

Углубимся ещё немного в малохоженные дебри Data Science. Сегодня в очереди на препарацию алгоритм кластеризации DBSCAN. Прошу под кат людей, которые сталкивались или собираются столкнуться с кластеризацией данных, в которых встречаются сгустки произвольной формы — сегодня ваш арсенал пополнится отличным инструментом.

Интересные алгоритмы кластеризации, часть вторая: DBSCAN - 1
Читать полностью »

Интересные алгоритмы кластеризации, часть первая: Affinity propagation

2017-02-06 в 5:38, admin, рубрики: affinity propagation, clustering, data mining, graphs, Алгоритмы, математика, машинное обучение, метки: affinity propagation

Если вы спросите начинающего аналитика данных, какие он знает методы классификации, вам наверняка перечислят довольно приличный список: статистика, деревья, SVM, нейронные сети… Но если спросить про методы кластеризации, в ответ вы скорее всего получите уверенное «k-means же!» Именно этот золотой молоток рассматривают на всех курсах машинного обучения. Часто дело даже не доходит до его модификаций (k-medians) или связно-графовых методов.

Не то чтобы k-means так уж плох, но его результат почти всегда дёшев и сердит. Есть более совершенные способы кластеризации, но не все знают, какой когда следует применять, и очень немногие понимают, как они работают. Я бы хотел приоткрыть завесу тайны над некоторыми алгоритмами. Начнём с Affinity propagation.

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «graphs»

Ваш выход, граф: как мы не нашли хороший сетевой граф и создали свой

Ускоряем распределенную обработку больших графов с помощью вероятностных структур данных и не только

Нестандартная кластеризация, часть 3: приёмы и метрики для кластеризации временных рядов

Интересные алгоритмы кластеризации, часть вторая: DBSCAN

Интересные алгоритмы кластеризации, часть первая: Affinity propagation