Рубрика «Hadoop» - 10

IBM PureData для Hadoop: чем эта система может мне помочь?

2013-12-09 в 7:52, admin, рубрики: big data, Hadoop, IBM, Блог компании IBM, высокая производительность, метки: Hadoop, IBM

IBM PureData для Hadoop: чем эта система может мне помочь? Сегодня в компаниях информация выстраивается и хранится, как правило, несколькими способами и на нескольких платформах. Данные существуют в неструктурированном, неоптимизированном виде, что не позволяет извлекать из них информацию, необходимую для принятия стратегически важных решений. Роль Больших данных в этом сценарии заключается в возможности собирать такую информацию из различных входных данных, структурировать ее и выдавать данные для использования при анализе, при принятии решений и при работе со средствами предиктивной аналитики. Новейшая из систем IBM PureSystems объединяет в себе концепцию «Больших данных» и решение Apache Hadoop, исходя именно из таких задач.
Читать полностью »

Hadoop, часть 2: сбор данных через Flume

2013-11-07 в 11:12, admin, рубрики: big data, Hadoop, selectel, Блог компании Селектел, селектел, метки: big data, Hadoop, selectel, селектел

В предыдущей публикации мы подробно рассмотрели процесс развертывания кластера Hadoop на базе Cloudera. В этой статье мы хотели бы подробно рассказать о методах и инструментах для сбора данных в Hadoop. Загрузить данные в систему можно как с помощью простого копирования в HDFS, так и с помощью специальных инструментов.
Читать полностью »

Кластеры Hadoop по запросу из облака: внутреннее устройство, первые шаги, задачи, Hive

2013-11-06 в 5:13, admin, рубрики: Apache, big data, Hadoop, hdinsight, map reduce, open source, windows azure, Облачные вычисления, облачные сервисы

Некоторое время назад, в рамках конференции Strata + Hadoop World был анонсирован выход в коммерческой эксплуатацию Windows Azure HDInsight — облачного сервиса 100% совместимого с Apache Hadoop. Подробности о истории появления сервиса и его возможностях можно найти в этой статье на Хабре. Об анонсах конференции Strata + Hadoop World можно прочитать в другой свежей статье.

В этой статье речь пойдет о внутреннем устройстве кластеров HDInsight, старте работы с ними и первых задачах и запросах к Hive. В конце статьи приводятся реальные примеры использования Windows Azure HDInsight крупными международными организациями.

Windows Azure HDInsight предлагает следующие преимущества для своих пользователей:

Работа с большими данными с помощью знакомых инструментов: благодаря глубокой интеграции с инструментами бизнес-аналитики от Microsoft, такими как PowerPivot, Power View и Excel, сервис HDInsight позволяет вам легко анализировать ваши данные с помощью возможностей Hadoop. Прозрачно объединяйте данные из различных источников данных, включая HDInsight с помощью Power Query. Легко анализируйте и визуализируйте географические данные с помощью Power Map – новый картографический 3D-инструмент в Excel 2013;
Гибкость – HDInsight предлагает гибкость соответствующую изменениям потребностей вашей организации. С богатый набором скриптов PowerShell вы можете размещать и администрировать кластер Hadoop за считанные минуты вместо привычных часов или даже дней. Если вам нужен кластер большего размера, просто удалите существующий и создайте новый нужного размера в течении нескольких минут без потери каких либо данных;
Hadoop корпоративного уровня: HDInsight предлагает безопасность и управляемость корпоративного уровня. Благодаря выделенному узлу Secure Node, сервис HDInsight помогает обезопасить ваш кластер Hadoop. В дополнение, мы упростили управление вашим кластером Hadoop с помощью внушительного набора скриптов PowerShell;
Богатые возможности для разработчиков: сервис HDInsight предлагает мощные возможности для разработки приложений с богатым выбором языков, включая .NET, Java и другие. Разработчики на платформе .NET могут воспользоваться мощью запросов LINQ to Hive.

Читать полностью »

Дайджест новостей платформы Windows Azure, октябрь 2013

2013-11-05 в 4:25, admin, рубрики: active directory, Hadoop, hdinsight, hyper-v, Service Bus, sql server, Visual Studio, windows azure, Облачные вычисления, разработка, метки: active directory, Hadoop, hdinsight, hyper-v, service bus, sql server, Visual Studio, windows azure

В рамках этого дайджеста новостей облачной платформы Windows Azure собраны основные анонсы для разработчиков, ИТ-профессионалов и для всех специалистов интересующихся облачными технологиями и платформой Windows Azure.

В этом выпуске:

Коммерческая доступность сервиса резервного копирования в облако Windows Azure Backup
Коммерческая доступность cервиса Windows Azure HDInsight (кластеры Hadoop как сервис)
Публичное превью нового сервиса Hyper-V Recovery Manager
Новые возможности работы с виртуальными машинами:
- Удаление дисков;
- Новые уведомления групп доступности;
- Конфигурирование SQL Server AlwaysOn;
Новые функции Active Directory:
- Интеграция и управление сотнями сторонних SaaS-приложений;
- Управление Windows Azure;
Поддержка Windows Azure в SQL Server 2014 CTP2;
Поддержка Windows Server 2012
Windows Azure SDK 2.2
- Поддержка Visual Studio 2013;
- Удаленная отладка облачных сервисов;
- Секционирование сущностей Windows Azure Service Bus;
- Новые библиотеки управления Windows Azure Management Libraries for .NET;
- Новые скрипты PowerShell и новый портал ScriptCenter;
Снижение цен на ВМ с большим объемом памяти
Опубликована предварительная программа конференции Cloud OS Summit

Читать полностью »

Windows Azure и Hadoop: «дружба», готовая к Enterprise

2013-11-04 в 16:32, admin, рубрики: big data, Hadoop, hdinsight, windows azure, YARN, Облачные вычисления, метки: big data, Hadoop, hdinsight, windows azure, YARN

За последние пол месяца произошло 3 ИТ-события, лежащие в плоскости Big Data, Cloud Computing и на их симбиозе. По странному стечению обстоятельств эти события остались без должного внимания как со стороны хабросообщества, так и со стороны немногочисленных профессиональными сообществ в LinkedIn и Facebook.

Эти событий — конференция Strata + Hadoop World, релиз стабильной версии Hadoop 2.2.0 и облачного сервиса Windows Azure HDInsight. О косвенной и прямой связи этих событий речь и пойдет ниже.

Также ниже я приведу ссылки на ресурсы, которые будут более полезными, чем любой вольных пересказ содержимого этих ресурсов.

HDInsight Ecosystem
Читать полностью »

HBase, загрузка больших массивов данных через bulk load

2013-09-26 в 16:43, admin, рубрики: big data, BigData, Hadoop, java, метки: BigData, Hadoop, java

Привет коллеги.
Хочу поделиться своим опытом использования HBase, а именно рассказать про bulk loading. Это еще один метод загрузки данных. Он принципиально отличается от обычного подхода (записи в таблицу через клиента). Есть мнение, что с помощью bulk load можно очень быстро загружать огромные массивы данных. Именно в этом я решил разобраться.
Читать полностью »

Вам не нужен Hadoop — у вас просто нет столько данных

2013-09-19 в 17:15, admin, рубрики: big data, Hadoop, высокая производительность

Меня спросили: «Сколько у вас опыта с большими данными и Hadoop?» Я ответил, что часто использую Hadoop, но редко — с объёмами данных больше нескольких ТБ. Я новичок в больших данных — понимаю идеи, писал код, но не в серьёзных масштабах.

Следующий вопрос был: «Можете ли вы сделать простую группировку и сумму в Hadoop?» Разумеется, могу, и я попросил пример формата данных.

Они вручили мне флэш-диск со всеми 600 МБ данных (да, это были именно все данные, а не выборка). Не понимаю, почему, но им не понравилось моё решение, в котором был pandas.read_csv и не было Hadoop.
Читать полностью »

Вы понимаете Hadoop неправильно

2013-09-18 в 19:16, admin, рубрики: big data, Hadoop, MapReduce, высокая производительность, метки: Hadoop, MapReduce

— Мы получаем больше миллиона твитов в день, и наш сервер просто не успевает их обрабатывать. Поэтому мы хотим установить на кластер Hadoop и распределить обработку.

Речь шла о вычислительно тяжёлом сентиментном анализе, поэтому я мог поверить, что у одного сервера действительно не хватает CPU, чтобы справиться с большим потоком твитов.

— А что вы собираетесь делать с уже обработанными данными?
— Скорее всего, мы будем складывать их в MySQL, как делали это раньше, или даже удалять.
— Тогда вам определённо не нужен Hadoop.

Мой бывший коллега был далеко не первым, кто говорил про распределённые вычисления на Hadoop. И каждый раз я видел полное непонимание того, зачем была придумана и разработана эта платформа.

Читать полностью »

Hadoop Tutorial. Пишем свой grep

2013-08-12 в 9:13, admin, рубрики: Apache, big data, Hadoop, hello world, java, MapReduce, метки: big data, Hadoop, hello world, java, MapReduce

Доброго времени суток, дорогое читатели. Не так давно я начал изучать работу с большими данными (Map/Reduce, NoSQL...) и очень быстро узнал о фреймворке с открытым исходным кодом Apache Hadoop, за изучение которого сразу и принялся.

Данный пост рассчитан на новичков, которые тоже не так давно начали изучать Hadoop. В посте будет разобрано небольшое приложение построенное на этом фреймворке(Этакий Hello World!). Кому интересно, добро пожаловать под кат.
Читать полностью »

Hadoop. Подробное руководство. 3-е издание

2013-07-04 в 15:25, admin, рубрики: Hadoop, nosql, Блог компании Издательский дом «Питер», метки: Hadoop

Возможно вы помните пост: Нужна ли книга по Hadoop?, в котором мы хотели узнать ваше мнение, стоит ли издавать эту книгу на русском языке. Прошли положенные 9 месяцев, и мы готовы представить её вашему вниманию.

Встречайте:

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «Hadoop» - 10

IBM PureData для Hadoop: чем эта система может мне помочь?

Hadoop, часть 2: сбор данных через Flume

Кластеры Hadoop по запросу из облака: внутреннее устройство, первые шаги, задачи, Hive

Дайджест новостей платформы Windows Azure, октябрь 2013

Windows Azure и Hadoop: «дружба», готовая к Enterprise

HBase, загрузка больших массивов данных через bulk load

Вам не нужен Hadoop — у вас просто нет столько данных

Вы понимаете Hadoop неправильно

Hadoop Tutorial. Пишем свой grep

Hadoop. Подробное руководство. 3-е издание