Рубрика «кластеризация» - 3

Кластеризация с пакетом ClusterR, часть 1

2016-09-26 в 8:54, admin, рубрики: clustering, data mining, k-means, k-medoids, R, Блог компании Инфопульс Украина, кластеризация, машинное обучение

Эта статья посвящена кластеризации, а точнее, моему недавно добавленному в CRAN пакету ClusterR. Детали и примеры ниже в большинстве своем основаны на пакете Vignette.

Кластерный анализ или кластеризация — задача группирования набора объектов таким образом, чтобы объекты внутри одной группы (называемой кластером) были более похожи (в том или ином смысле) друг на друга, чем на объекты в других группах (кластерах). Это одна из главных задач исследовательского анализа данных и стандартная техника статистического анализа, применяемая в разных сферах, в т.ч. машинном обучении, распознавании образов, анализе изображений, поиске информации, биоинформатике, сжатии данных, компьютерной графике.

Наиболее известные примеры алгоритмов кластеризации — кластеризация на основе связности (иерархическая кластеризация), кластеризация на основе центров (метод k-средних, метод k-медоидов), кластеризация на основе распределений (GMM — Gaussian mixture models — Гауссова смесь распределений) и кластеризация на основе плотности (DBSCAN — Density-based spatial clustering of applications with noise — пространственная кластеризация приложений с шумом на основе плотности, OPTICS — Ordering points to identify the clustering structure — упорядочивание точек для определения структуры кластеризации, и др.).
Читать полностью »

Геораспределенный s3-кластер в режиме active-active

2016-05-24 в 9:52, admin, рубрики: ceph, rados gateway, администрирование, гайд, кластеризация, облачные хранилище, руководство, системное администрирование, хранение данных

Геораспределенный s3-кластер в режиме active-active - 1

Предисловие

Начав настраивать в rados геораспределенную репликацию, столкнулся с проблемой, что официальная документация немного не подходит под новый мажорный релиз jewel, да и в интернете пока еще нет актуальных инструкций. Данный мануал сбережет много времени тем, кто захочет себе небольшое, свое геораспределенное s3-облако.
Читать полностью »

Хабра-граф, -сообщества и куда же делась вся карма

2016-02-03 в 10:04, admin, рубрики: big data, data mining, data science, python, визуализация данных, вот это вот всё с данными да, кластеризация, математика, никто не читает теги, Хабрахабр API

Вступление

Cегодня мы вместе с анализом графов, data mining, subgroup discovery и всеми веселыми штуками взглянем на Хабр. Весь код и данные прилагаются — каждый может взглянуть на них самостоятельно, легко повторить рассчеты из статьи и найти что-то интересное самостоятельно.

(это не просто картинка для привлечения внимания, а — граф связей ~45000 пользователей Хабра по тому, кто на кого подписан; размер вершины пропорционален числу подписчиков; все картинки кликабельны; подробности далее)

Обсуждаемые проблемы возникли, конечно же, далеко не вчера, но некоторые их аспекты кажутся мне достаточно новыми и поэтому достойными дискуссии, основанной на непредвзятых и репрезентативных данных. Например в комментариях этой статьи, увидел интересное утверждение:

Тут проблема в том, что на всем хабре за сегодня не насчитать больше 50-80 человек, которые вообще могут голосовать. У 90% пользователей карма просто ниже 5. Как итог оценивают комментарии и статьи только избранные. Это как жюри выходит такое.

И решил, что стоить его сформулировать в виде гипотезы и проверить:

Q1: Правда ли, что Хабр превратился в жюри-based сообщество, где два с половиной человека голосуют за статьи?

Вот в этой статье к нам вернулись "железные" Хабы и стало интересно, а как вообще представлены разные сообщества внутри Хабра? Формулируем в виде гипотезы:

Q2: Как сегментировано сообщество, или проще говоря сколько у нас здесь групп по интересам и соотвествуют ли они имеющимся хабам?

Последнее, но не менее интересное наблюдение, что активность на Хабре упала (по данным Хабра-пульса и моим субъективным наблюдениям), что даже решили ввести аккаунты "read & comment". Поэтому решил оценить активность сообщества и продумать, как информация о структуре сообщества может нам помочь:

Q3: Насколько активно сообщество и как нам может помочь структура внутренних групп?

За подробностями добро пожаловать под кат.

Структура статьи

Полуавтоматическая классификация сайтов

2015-12-28 в 0:07, admin, рубрики: big data, data mining, ipython notebook, визуализация данных, графы, классификация, кластеризация, сайты

Рассмотрим такую задачу: есть 1000 новостных сайтов, например: engadget.com, huffingtonpost.com, sbnation.com. Их нужно распределить по классам про игры, про бизнес и финансы, про IT, про кино и музыку, например. Как это сделать? Можно просто брать один сайт за другим и назначать ему класс, но чтобы обработать таким образом 1000 сайтов нужно иметь крепкую психику и уйму времени. Можно сделать более технично: взять граф похожих сайтов, выделить интересующий подграф на 1000 вершин и кластеризовать его. Про граф похожих сайтов было написано несколько месяцев назад мной и ребятами из DCA. Граф про новостные сайты будет выглядеть примерно так:
Полуавтоматическая классификация сайтов - 1

Действительно, некоторые классы получается выделить автоматически, например «игры» и «технологии»:
Полуавтоматическая классификация сайтов - 2
Читать полностью »

Производительный отказоустойчивый географически разнесенный кластер, работающий по схеме Active-Active на мейнфрейме IBM zEnterprise EC 12

2015-02-12 в 22:36, admin, рубрики: Parallel Sysplex, Блог компании IBM, высокая производительность, кластеризация, мейнфрейм, Сетевые технологии, метки: Parallel Sysplex

Во многих областях человеческой деятельности предъявляются повышенные требования к производительности и доступности сервисов, предлагаемых информационными технологиями. Примером таких областей является, например, банковское дело. Если у какого-нибудь крупного банка в стране на несколько часов откажет карточный процессинг, то это отразится на повседневных нуждах и заботах миллионов пользователей по всей стране, что приведет к снижению их лояльности вплоть до принятия решения отказаться от услуг такой кредитной организации. Аналогичным образом дело обстоит и с производительностью и доступностью многих других информационных систем.

Решение проблем с производительностью и доступностью в принципе известно: дублировать узлы, обеспечивающие обработку данных, и объединять их в кластеры. При этом для обеспечения максимальной загрузки имеющихся ресурсов и снижения времени простоя системы при выходе из строя одного из узлов кластер должен работать по схеме Active-Active. Также уровень доступности, обеспечиваемый кластером, размещенным целиком в одном центре обработки данных, может быть недостаточен (например, при отключении электричества в целых районах крупных городов). Тогда узлы кластера необходимо географически распределять.

В данной статье мы расскажем о проблемах построения отказоустойчивого географически разнесенного кластера и о решениях, предлагаемом корпорацией IBM на базе мейнфреймов, а также поделимся результатами выполненного нами тестирования производительности и высокой доступности реального банковского приложения в кластерной конфигурации, с узлами, разнесенными на расстояние до 70 км.
Читать полностью »

Запись вебинара — Windows Server «10»: что нового в кластеризации

2015-02-11 в 10:31, admin, рубрики: failover cluster, windows, windows server 10, Блог компании «Звезды и С», кластеризация, метки: windows server 10

УЦ «Звезды и С» предлагает Вашему вниманию, запись вебинара Экс-Архитектора Microsoft Алексей Кибкало:
Windows Server «10»: что нового в кластеризации

Запись вебинара — Windows Server «10»: что нового в кластеризации - 1
План вебинара — Windows Server «10»: что нового в кластеризации:

Что нового в Failover Clustering в WS TP
- Новые возможности
- Сосуществование с WS2012/R2 и миграция
- Управление из UI
- Управдение средствами PowerShell
- Новые возможности WMI API
Rolling Cluster Upgrade
- Введение и демонстрация
- Добавление и замена узлов
- Двусторонняя миграция ресурсов между разными ОС в одном кластере
- Уровень кластера, — как, зачем и когда изменять
Storage Replica
- Введение и спецификация
- Архитектура
- Сценарии
  - Простейший недорогой кластер для повышения доступности
  - Распределенные кластеры
  - BCDR сценарии с использованием MASR

Читать полностью »

Как реализовать почти мгновенное переключение сайта между площадками, когда одна упала

2015-01-26 в 11:29, admin, рубрики: vds, виртуализация, виртуальный сервер, кластер, кластеризация, отказоустойчивость, отказоустойчивый ip, отказоустойчивый кластер, хостинг

Бывает, сайты падают из-за отказа площадки хостера, каналов и так далее. Я 7 лет работаю в хостинге, и часто вижу такие проблемы.

Пару лет назад я понял, что услуга резервной площадки (без доработки их сайта или сервиса) очень важна клиентам. Теоретически тут всё просто:
1. Иметь копию всех данных в другом дата-центре.
2. При сбое переключать работу на резервный ДЦ.

На практике система пережила 2 полные технические реорганизации (сохранение основных идей со сменой значительной части инструментария), 3 переезда на новое оборудование, 1 переезд между поставщиками услуг (переезд из немецкого дата-центра в два российских). На исследование поведения разных систем в реальных условиях под клиентской нагрузкой ушло 2 года.
Читать полностью »

Кластеризация данных СУБД Oracle вне кластерной таблицы

2014-12-15 в 8:51, admin, рубрики: clustered table, oracle, Администрирование баз данных, Блог компании Петер-Сервис, кластеризация, кластеризация данных

Oracle кластер умер, да здравствует кластеризация!

_{Здесь и далее имеется в виду cluster хранения данных, а не Oracle Real Application Custer}

Проблематика

Большим информационным системам свойственно постоянное поступление различной информации, которая накапливается, обсчитывается и архивируется. Мы рассмотрим вариант структурированных данных, хранящихся на сервере RDBMS Oracle и в качестве примера возьмём таблицу, содержащую CDR записи (т.е. записи о вызовах) для абонентов оператора связи.
Данные о звонках поступают хаотично, т.е. не упорядоченно, как вы понимаете, по атрибутам абонентов. Все данные имеют свой жизненный цикл — оперативные, актуальные и архивные. Со временем частота обращений и требования по скорости доступа к данным меняются (т.е. падают). Т.о. записи годичной давности вполне можно хранить на медленных дисках, активные — на дисках с высокой скоростью доступа и без претензий на производительность операций записи, а вот вновь поступающим данным свойственно требование к максимально высокой скорости записи и чтения.
Читать полностью »

Как мы кластеризуем подарки в ОК

2014-10-16 в 13:25, admin, рубрики: data mining, Hadoop, mcl, Блог компании Mail.Ru Group, Блог компании Одноклассники, кластеризация, одноклассники

Всем привет! Меня зовут Артур, я аналитик в отделе анализа данных департамента рекламных технологий Mail.Ru Group. И я попробую рассказать о том, как мы используем кластеризацию в своей работе.

Чего в этой статье не будет: я не буду рассказывать об алгоритмах кластеризации, об анализе качества или сравнении библиотек. Что будет в этой статье: я покажу на примере конкретной задачи что такое кластеризация (с картинками), как ее делать если данных действительно много (ДЕЙСТВИТЕЛЬНО много) и что получается в результате.

Читать полностью »

Настройка Cyclos кластера на базе Jelastic Platform-as-Infrastructure

2014-08-20 в 8:57, admin, рубрики: высокая доступность, кластеризация, репликация базы данных

Cyclos — банковская он-лайн система с дополнительными модулями для электронной коммерции, средств связи и многих других функциональностей в данной сфере. С помощью динамической структуры Cyclos можно легко создать специализированную платежную систему простым изменением настроек.

Недавно Cyclos выпустили новую четвертую версию своего продукта, а Jelastic предоставил возможность установить её в один клик. Это можно сделать через сайт Cyclos (для этого требуется регистрация) или используя JPS виджет на нашей странице Marketplace.
jelastic and cyclos Читать полностью »

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «кластеризация» - 3

Кластеризация с пакетом ClusterR, часть 1

Геораспределенный s3-кластер в режиме active-active

Предисловие

Хабра-граф, -сообщества и куда же делась вся карма

Вступление

Полуавтоматическая классификация сайтов

Производительный отказоустойчивый географически разнесенный кластер, работающий по схеме Active-Active на мейнфрейме IBM zEnterprise EC 12

Запись вебинара — Windows Server «10»: что нового в кластеризации

Как реализовать почти мгновенное переключение сайта между площадками, когда одна упала

Кластеризация данных СУБД Oracle вне кластерной таблицы

Проблематика

Как мы кластеризуем подарки в ОК

Настройка Cyclos кластера на базе Jelastic Platform-as-Infrastructure

Архив

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «кластеризация» - 3

Предисловие

Вступление

Проблематика

Новости

Актуальные темы

Архив