Приглашаем на HadoopKitchen

в 9:43, , рубрики: big data, Hadoop, meetup, Блог компании Mail.Ru Group, высокая производительность, мини-конференция, митап

Приглашаем на HadoopKitchen

Спешим сообщить вам о нашей новой инициативе, которая будет интересна как программистам, так и ряду других IT-специалистов: 27 сентября, в следующую субботу, в московском офисе Mail.Ru Group состоится первая встреча HadoopKitchen. Почему именно Hadoop и чем эта встреча может быть интересна непрограммистам?

  • Hadoop является центром настоящей экосистемы, с ним связаны многочисленные проекты и технологии.
  • Многие компании целиком полагаются на коммерческие дистрибутивы Hadoop.
  • Hadoop входит в продуктовые линейки почти всех крупных поставщиков информационных технологий, что говорит о его востребованности и популярности.

Программа первой Hadoop-встречи будет очень насыщенной, выступят аж четыре докладчика. Все они замечательные специалисты с большим опытом, которым хотят поделиться с аудиторией. Под катом читайте программу мероприятия и анонсы докладов.

Программа мероприятия:

11:00 Регистрация и welcome coffee.

12:00 Алексей Филановский (Cloudera Certified Developer for Apache Hadoop, старший консультант отдела продаж, Oracle) расскажет о новых интересных возможностях Hadoop v2. Конечно, это не будет сухим перечислением с краткими описаниями, Алексей также разберёт разные сценарии использования этих возможностей, а заодно расскажет о некоторых примерах из практики.

Hadoop-экосистема набирает популярность семимильными шагами, все больше и больше пользователей начинают использовать ее не только для синтетических тестов, для удовлетворения собственного любопытства, но и в продуктивной среде предприятия. Данный факт объясняет бурное развитие продукта. Больше пользователей, больше пожеланий для разработчиков. В рамках данного доклада будут освещены основные возможности, появившиеся в Hadoop v2.

13:00 Никита Макеев (Data Team lead, IponWeb) поведает собравшимся особые знания о том, как можно расширить возможности Hadoop Streaming при работе с современными форматами данных Avro и Parquet.

Map-Reduce, Avro и Parquet без Java. Ну почти. Hadoop Streaming — отличный способ оседлать Hadoop в частности и пакетную обработку больших объемов данных вообще. Почти не нужно знать Java, а только примерно представлять, как работает MapReduce, и уметь писать на каком-нибудь языке программирования, который может обрабатывать строчки текста. Практически любая задача, которая может быть решена при помощи MapReduce, может быть также решена и при помощи Hadoop Streaming. Преимущества очевидны — простота разработки, нет проблем с кадрами, невысокие затраты на вхождение.

Одно из наиболее распространенных применений Hadoop Streaming — обработка текстовых логов или других данных, представленных в виде текста. Однако популярность стремительно завоевывают более сложные, чем просто текст, форматы. Можно ли сохранить возможность обрабатывать данные при помощи скриптовых языков и при этом использовать все преимущества, которыми обладают современные форматы данных, такие как Avro и Parquet?

Мы справляемся с этой задачей, используя некоторое количество Java-кода и JSON как связующее звено. Как водится, везде есть нюансы, особенности, а зачастую и особые уникальные «грабли» о которых и будет рассказано.

14:00 Максим Лапань (ведущий программист проекта Поиск, Mail.Ru Group) расскажет увлекательную историю о том, как в Mail.Ru Group осуществляется управление кластерами Hadoop. Докладчик не обойдёт стороной и те трудности, которые вставали на пути команды разработчиков по мере развития и расширения системы. Доклад будет посвящен практической стороне эксплуатации кластера Hadoop/HBase, на протяжении последних трех лет используемого в проекте Поиск Mail.Ru. За это время система выросла с 30 до 400 серверов, объем хранилища с 400ТБ до 9ПБ. Темы, которые планируется затронуть:

  • как мы изобрели свой bigtop: структура и логика наших сборок rpm-пакетов, поддержка нескольких кластеров, работа пользователей, особенности конфигурации компонентов Hadoop;
  • мониторинг и анализ производительности кластера: как мы следим за работой кластеров, какие метрики используем;
  • проблемы администрирования большой инсталляции Hadoop/HBase.

15:00 Обед. Война войной, а обед по расписанию.

С 15:45 до 17:45 в формате World Cafe все желающие смогут принять участие в совместном определении и обсуждении наиболее животрепещущих вопросов эксплуатации Hadoop.

В 18:00 Алексей Грищенко (Pivotal Enterprise Architect, EMC Corporation) выступит с докладом о том, какие особенности и нюансы характерны для архитектурного решения Pivotal HAWQ, а также расскажет о его взаимодействии с Hadoop. В рамках доклада будут освещены следующие темы:

  1. Текущее положение на рынке решений, реализующих SQL-интерфейс для работы с данными в HDFS. В последнее время эта тема крайне активно набирают популярность, что по большей части связано с популяризацией Hadoop в корпоративном секторе. Я кратко освещу основные существующие на текущий момент решения и принципиальные проблемы, с которыми сталкиваются все подобные системы.
  2. Компоненты решения Pivotal HAWQ и их взаимодействие с HDFS. Здесь я детально расскажу о том, из каких компонент состоит наша СУБД, как они располагаются на кластере, каким образом они связаны с HDFS и как они хранят данные
  3. Детальный разбор процесса выполнения запроса. В качестве примера будет дан несложный запрос, процесс его выполнения будет расписан по шагам от поступления запроса в систему до возвращения данных клиентскому приложению. Также здесь я кратко расскажу о отличительных особенностях обработки запросов в HAWQ по сравнению с другими системами.
  4. Возможности организации доступа к кастомизированным форматам хранения данных на HDFS, а также к различным внешним системам. Здесь я расскажу о фреймворке PXF и возможности его расширения, приведу пример реализованного мной компонента
  5. Прочие возможности HAWQ и направление дальнейшего развития. Я расскажу о возможностях использования HAWQ для решения задачи интеллектуального анализа данных, а также освещу направление, в котором наша платформа развивается и каких изменений стоит ждать.

Обязательно возьмите с собой документ, удостоверяющий личность, у нас строгая охрана. Также вам необходимо будет зарегистрироваться.

Автор: TeamMRG

Источник

Поделиться

* - обязательные к заполнению поля