Рубрика «Hadoop» - 8

Московский Big Data хакатон 15 16 ноября

Big Data продвигается как тренд нового века. Были СУБД для хранения данных, инструменты обработки; со временем же стало понятно, что «не справляемся», и сейчас мы имеем в руках целый веер средств для обработки и анализа данных. И мы решили сделать хакатон. Hadoop? Мы вам рады. Другое? Не проблема. Хотите узнать, что у нас есть интересного? Регистрируйтесь и приходите 15-16 ноября в Коворкинг 2.0 «Свободное плавание» (Москва), только не забудьте принести нужное.
 
Читать полностью »

Всем привет! Меня зовут Артур, я аналитик в отделе анализа данных департамента рекламных технологий Mail.Ru Group. И я попробую рассказать о том, как мы используем кластеризацию в своей работе.

Чего в этой статье не будет: я не буду рассказывать об алгоритмах кластеризации, об анализе качества или сравнении библиотек. Что будет в этой статье: я покажу на примере конкретной задачи что такое кластеризация (с картинками), как ее делать если данных действительно много (ДЕЙСТВИТЕЛЬНО много) и что получается в результате.

Как мы кластеризуем подарки в ОК
Читать полностью »

Hadoop: что, где и зачем

Развеиваем страхи, ликвидируем безграмотность и уничтожаем мифы про железнорождённого слона. Под катом обзор экосистемы Hadoop-а, тенденции развития и немного личного мнения.
Читать полностью »

Мне очень приятно сегодня рассказать вам о возможностях хранения данных в облаке Azure. Мы знаем, что данные — это самое главное, что есть у нас, данные — это то, для чего создается инфраструктура и вообще существует ИТ. Поэтому, вопрос хранения данных — наиболее важный.

Microsoft Azure. Как мы храним свои и ваши данные

Для начала давайте посмотрим, как Microsoft хранит данные для собственных сервисов и данные своих пользователей и какие опции компания использует сама и предлагает клиентам.

image

Нам очень важно обеспечить все потребности наших клиентов и поэтому мы постоянно расширяем свои ЦОДы, увеличиваем их мощности и создаем новые. Сегодня мы предлагаем 16 самых современных и очень больших ЦОД по всему миру, обеспечивая работу сотен своих сервисов и сервисов тысяч наших клиентов, которыми пользуются сотни миллионов людей по всему миру. Благодаря этому сервисы Azure доступны на 89 рынках с круглосуточной и ежедневной поддержкой.
Читать полностью »

Пару недель назад в Калуге прошла конференция OSSDEVCONF-2014, или более солидно «Одиннадцатая конференция разработчиков свободных программ».
Тематика в целом — «как внедрять СПО», «перспективы импортозамещения», «СПО во всех видах — от госпорталов до CAD-систем и Instant Messengerов», тонкости разработки сложного опенсорса, фишки отечественных линукс-дистрибутивов. Докладчики — ALT Linux, Red Hat, ROSA, Институт Системного программирования и т.п.
К сожалению, получилось так, что народу собралось немного — осенние болезни скосили участников и докладчиков (один из в полуживом состоянии осилил записать удаленный доклад…),
ну и трудно, несмотря на бесплатность, собрать людей на конференцию не в городе-транспортном узле…
В результате, всего полтора десятка докладов, и они ищут зрителей — я сделал добротную видеозапись (монтаж с нескольких камер и экрана, звук с микрофонов, технологии оживления™ и т.п.)
В качестве пикрелейтед — минутный обзорный ролик.

А под катом предлагаю краткий обзор-классификацию с ссылками на видео и дополнительные материалы («слайды-тезисы-контакты докладчика»).
Читать полностью »

Приглашаем на HadoopKitchen

Спешим сообщить вам о нашей новой инициативе, которая будет интересна как программистам, так и ряду других IT-специалистов: 27 сентября, в следующую субботу, в московском офисе Mail.Ru Group состоится первая встреча HadoopKitchen. Почему именно Hadoop и чем эта встреча может быть интересна непрограммистам?

  • Hadoop является центром настоящей экосистемы, с ним связаны многочисленные проекты и технологии.
  • Многие компании целиком полагаются на коммерческие дистрибутивы Hadoop.
  • Hadoop входит в продуктовые линейки почти всех крупных поставщиков информационных технологий, что говорит о его востребованности и популярности.

Программа первой Hadoop-встречи будет очень насыщенной, выступят аж четыре докладчика. Все они замечательные специалисты с большим опытом, которым хотят поделиться с аудиторией. Под катом читайте программу мероприятия и анонсы докладов.
Читать полностью »

Эта статья нацелена на Большие и Очень большие Хранилища Данных, но для ровной картины в классификации немного упомянуты и маленькие.

Статья написана для специалистов, которые ценят главный критерий работы с базами данными — скорость. Речь пойдет о системах, нацеленных на грубый full scan (ораклисты уже напряглись, а терадатовцы радуются).

Давайте рассмотрим, под какой объем данных и работ лучше всего подходит Oracle или Hadoop/NoSQL.
Читать полностью »

image

Введение

Как человеку с не очень устойчивой психикой, мне достаточно одного взгляда на картинку, подобную этой, для начала панической атаки. Но я решил, что страдать буду только сам. Цель статьи — сделать так, чтобы Hadoop выглядел не таким страшным.

Что будет в этой статье:

  • Разберем, из чего состоит фреймворк и зачем он нужен;
  • разберем вопрос безболезненного развертывания кластера;
  • посмотрим на конкретный пример;
  • немного коснемся новых фич Hadoop 2 (Namenode Federation, Map/Reduce v2).
Чего не будет в этой статье:

  • вообще статья обзорная, поэтому без сложностей;
  • не будем лезть в тонкости экосистемы;
  • не будем зарываться глубоко в дебри API;
  • не будем рассматривать все околоdevops-задачи.

Читать полностью »

Привет! Меня зовут Андрей Степачев. В конце прошлого года я выступил перед коллегами с небольшим рассказом о том, что такое ZooKeeper, и как его можно использовать. Доклад изначально был рассчитан на широкий круг аудитории и может быть полезен и разработчикам, и админам, желающим разобраться, как все это примерно работает.

Начнем, пожалуй, с истории появления ZooKeeper. Сначала, как известно, в Google написали сервис Chubby для управления своими серверами и их конфигурацией. Заодно решили задачу со взаимными блокировками. Но у Chubby была одна особенность: для захвата локов необходимо открывать объект, потом закрывать. От этого страдала производительность. В Yahoo посчитали, что им нужен инструмент, при помощи которого они могли бы строить различные системы для конфигураций своих кластеров. Именно в этом основная цель ZooKeeper — хранение и управление конфигурациями определенных систем, а локи получились как побочный продукт. В итоге вся эта система была создана для построения различных примитивных синхронизаций клиентским кодом. В самом ZooKeeper явных понятий подобных очередям нет, все это реализуется на стороне клиентских библиотек.

Читать полностью »

Введение

У одного из наших клиентов возникла задача вынести логи из большинства корпоративных приложений и их баз данных «куда-нибудь» — уж больно с ними много возни: растут как на дрожжах, чисти их периодически, а к некоторым еще и доступ должен быть обеспечен в течение многих лет, да еще и анализ хочется проводить системным образом. Конечно же, вынести логи – это не первичная цель, и по совокупности требований мы выбрали Hadoop, версию от Cloudera (CDH 5).

Требования указывали, что решение, помимо прочего, должно предоставлять возможность поиска и просмотра списка событий (из логов) по заданным критериям, причем желательно быстрого. Причем некоторые приложения также должны быть переделаны, чтобы формы просмотра логов стали использовать Hadoop вместо своих баз данных.

Как одно из решений — использовать поисковый модуль SolrCloud, который входит в комплект Hadoop от Cloudera. В Cloudera «из коробки» входят тулзы для выгрузки данных из баз данных приложений и их индексации пачкой (не построчно). Однако такой способ оказался хоть и рабочим, но более трудоемким и непредсказуемым в настройке, чем, скажем, если бы мы использовали Impala для выборки данных. Поэтому я решил поделиться как мы это делали, в надежде сэкономить время тем, кто столкнется с похожей задачей.

Эта статья описывает детали настройки, а также встреченные в процессе работы особенности.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js