Метка «Hadoop»

Эта статья нацелена на Большие и Очень большие Хранилища Данных, но для ровной картины в классификации немного упомянуты и маленькие.

Статья написана для специалистов, которые ценят главный критерий работы с базами данными — скорость. Речь пойдет о системах, нацеленных на грубый full scan (ораклисты уже напряглись, а терадатовцы радуются).

Давайте рассмотрим, под какой объем данных и работ лучше всего подходит Oracle или Hadoop/NoSQL.
Читать полностью »

Microsoft представляет SQL Server 2014 в России!

Привет!

24 апреля 2014 года состоится ключевое события года в мире серверных и облачный решений – конференция Data Platform Day.

In-Memory OLTP (Hekaton), BIG DATA, Power BI, Microsoft Azure HDInsight и другие новейшие технологии работы с данными в трех треках за один день от ведущих экспертов Microsoft, компаний-партнеров и крупнейших российских заказчиков. Всё это будет идти под флагом глобальной стратегии развития Microsoft Cloud OS и универсальной Платформы SQL Server 2014.

Читать полностью »

des-48-5

В предыдущей публикации мы подробно рассмотрели процесс сбора данных при помощи специализированного инструмента Flume. Но чтобы полноценно работать с информацией, мало ее просто собрать и сохранить: ее нужно обработать и извлечь из нее нечто нужное и полезное.

Для обработки данных в Hadoop используется технология MapReduce.
Читать полностью »

Автор: Ник Чейс

Похоже, становится модным ругать OpenStack. Это естественно, каждая технология испытывает болезнь роста, когда она уже достаточно продвинутая, чтобы люди захотели ее использовать, но не настолько продвинутая, чтобы оправдать 100% ожиданий всех и каждого.Читать полностью »

Настройка маленького кластера Hadoop 2.2.0 с нуля

В данной статье будет по шагам разобран процесс создания небольшого кластера Hadoop для опытов.

Несмотря на то, что в интернете на иностранных ресурсах есть полно материала про настройку/развертывание Hadoop, большинство из них либо описывают настройку ранних версий (0.X.X и 1.X.X), либо описывают только настройку в режиме single mode/pseudo distributed mode и лишь частично fully distributed mode. На русском языке материала практически нет вовсе.

Когда мне самому понадобился Hadoop, то я далеко не с первого раза смог все настроить. Материал был неактуален, часто попадались конфиги, которые используют deprecated параметры, поэтому использовать их нежелательно. А даже когда все настроил, то задавался многими вопросами, на которые искал ответы. Также встречались похожие вопросы у других людей.

Всем кому интересно, прошу пожаловать по кат.
Читать полностью »

IBM PureData для Hadoop: чем эта система может мне помочь?Сегодня в компаниях информация выстраивается и хранится, как правило, несколькими способами и на нескольких платформах. Данные существуют в неструктурированном, неоптимизированном виде, что не позволяет извлекать из них информацию, необходимую для принятия стратегически важных решений. Роль Больших данных в этом сценарии заключается в возможности собирать такую информацию из различных входных данных, структурировать ее и выдавать данные для использования при анализе, при принятии решений и при работе со средствами предиктивной аналитики. Новейшая из систем IBM PureSystems объединяет в себе концепцию «Больших данных» и решение Apache Hadoop, исходя именно из таких задач.
Читать полностью »

image

В предыдущей публикации мы подробно рассмотрели процесс развертывания кластера Hadoop на базе Cloudera. В этой статье мы хотели бы подробно рассказать о методах и инструментах для сбора данных в Hadoop. Загрузить данные в систему можно как с помощью простого копирования в HDFS, так и с помощью специальных инструментов.
Читать полностью »

image

В рамках этого дайджеста новостей облачной платформы Windows Azure собраны основные анонсы для разработчиков, ИТ-профессионалов и для всех специалистов интересующихся облачными технологиями и платформой Windows Azure.

В этом выпуске:

  • Коммерческая доступность сервиса резервного копирования в облако Windows Azure Backup
  • Коммерческая доступность cервиса Windows Azure HDInsight (кластеры Hadoop как сервис)
  • Публичное превью нового сервиса Hyper-V Recovery Manager
  • Новые возможности работы с виртуальными машинами:
    • Удаление дисков;
    • Новые уведомления групп доступности;
    • Конфигурирование SQL Server AlwaysOn;
  • Новые функции Active Directory:
    • Интеграция и управление сотнями сторонних SaaS-приложений;
    • Управление Windows Azure;
  • Поддержка Windows Azure в SQL Server 2014 CTP2;
  • Поддержка Windows Server 2012
  • Windows Azure SDK 2.2
    • Поддержка Visual Studio 2013;
    • Удаленная отладка облачных сервисов;
    • Секционирование сущностей Windows Azure Service Bus;
    • Новые библиотеки управления Windows Azure Management Libraries for .NET;
    • Новые скрипты PowerShell и новый портал ScriptCenter;
  • Снижение цен на ВМ с большим объемом памяти
  • Опубликована предварительная программа конференции Cloud OS Summit

Читать полностью »

За последние пол месяца произошло 3 ИТ-события, лежащие в плоскости Big Data, Cloud Computing и на их симбиозе. По странному стечению обстоятельств эти события остались без должного внимания как со стороны хабросообщества, так и со стороны немногочисленных профессиональными сообществ в LinkedIn и Facebook.

Эти событий — конференция Strata + Hadoop World, релиз стабильной версии Hadoop 2.2.0 и облачного сервиса Windows Azure HDInsight. О косвенной и прямой связи этих событий речь и пойдет ниже.

Также ниже я приведу ссылки на ресурсы, которые будут более полезными, чем любой вольных пересказ содержимого этих ресурсов.

HDInsight Ecosystem
Читать полностью »

Привет коллеги.
Хочу поделиться своим опытом использования HBase, а именно рассказать про bulk loading. Это еще один метод загрузки данных. Он принципиально отличается от обычного подхода (записи в таблицу через клиента). Есть мнение, что с помощью bulk load можно очень быстро загружать огромные массивы данных. Именно в этом я решил разобраться.
Читать полностью »