Сегодня в компаниях информация выстраивается и хранится, как правило, несколькими способами и на нескольких платформах. Данные существуют в неструктурированном, неоптимизированном виде, что не позволяет извлекать из них информацию, необходимую для принятия стратегически важных решений. Роль Больших данных в этом сценарии заключается в возможности собирать такую информацию из различных входных данных, структурировать ее и выдавать данные для использования при анализе, при принятии решений и при работе со средствами предиктивной аналитики. Новейшая из систем IBM PureSystems объединяет в себе концепцию «Больших данных» и решение Apache Hadoop, исходя именно из таких задач.
Читать полностью »
Рубрика «Hadoop» - 10
IBM PureData для Hadoop: чем эта система может мне помочь?
2013-12-09 в 7:52, admin, рубрики: big data, Hadoop, IBM, Блог компании IBM, высокая производительность, метки: Hadoop, IBMHadoop, часть 2: сбор данных через Flume
2013-11-07 в 11:12, admin, рубрики: big data, Hadoop, selectel, Блог компании Селектел, селектел, метки: big data, Hadoop, selectel, селектел 
В предыдущей публикации мы подробно рассмотрели процесс развертывания кластера Hadoop на базе Cloudera. В этой статье мы хотели бы подробно рассказать о методах и инструментах для сбора данных в Hadoop. Загрузить данные в систему можно как с помощью простого копирования в HDFS, так и с помощью специальных инструментов.
Читать полностью »
Кластеры Hadoop по запросу из облака: внутреннее устройство, первые шаги, задачи, Hive
2013-11-06 в 5:13, admin, рубрики: Apache, big data, Hadoop, hdinsight, map reduce, open source, windows azure, Облачные вычисления, облачные сервисы 
Некоторое время назад, в рамках конференции Strata + Hadoop World был анонсирован выход в коммерческой эксплуатацию Windows Azure HDInsight — облачного сервиса 100% совместимого с Apache Hadoop. Подробности о истории появления сервиса и его возможностях можно найти в этой статье на Хабре. Об анонсах конференции Strata + Hadoop World можно прочитать в другой свежей статье.
В этой статье речь пойдет о внутреннем устройстве кластеров HDInsight, старте работы с ними и первых задачах и запросах к Hive. В конце статьи приводятся реальные примеры использования Windows Azure HDInsight крупными международными организациями.
Windows Azure HDInsight предлагает следующие преимущества для своих пользователей:
- Работа с большими данными с помощью знакомых инструментов: благодаря глубокой интеграции с инструментами бизнес-аналитики от Microsoft, такими как PowerPivot, Power View и Excel, сервис HDInsight позволяет вам легко анализировать ваши данные с помощью возможностей Hadoop. Прозрачно объединяйте данные из различных источников данных, включая HDInsight с помощью Power Query. Легко анализируйте и визуализируйте географические данные с помощью Power Map – новый картографический 3D-инструмент в Excel 2013;
- Гибкость – HDInsight предлагает гибкость соответствующую изменениям потребностей вашей организации. С богатый набором скриптов PowerShell вы можете размещать и администрировать кластер Hadoop за считанные минуты вместо привычных часов или даже дней. Если вам нужен кластер большего размера, просто удалите существующий и создайте новый нужного размера в течении нескольких минут без потери каких либо данных;
- Hadoop корпоративного уровня: HDInsight предлагает безопасность и управляемость корпоративного уровня. Благодаря выделенному узлу Secure Node, сервис HDInsight помогает обезопасить ваш кластер Hadoop. В дополнение, мы упростили управление вашим кластером Hadoop с помощью внушительного набора скриптов PowerShell;
- Богатые возможности для разработчиков: сервис HDInsight предлагает мощные возможности для разработки приложений с богатым выбором языков, включая .NET, Java и другие. Разработчики на платформе .NET могут воспользоваться мощью запросов LINQ to Hive.
Дайджест новостей платформы Windows Azure, октябрь 2013
2013-11-05 в 4:25, admin, рубрики: active directory, Hadoop, hdinsight, hyper-v, Service Bus, sql server, Visual Studio, windows azure, Облачные вычисления, разработка, метки: active directory, Hadoop, hdinsight, hyper-v, service bus, sql server, Visual Studio, windows azureВ рамках этого дайджеста новостей облачной платформы Windows Azure собраны основные анонсы для разработчиков, ИТ-профессионалов и для всех специалистов интересующихся облачными технологиями и платформой Windows Azure.
В этом выпуске:
- Коммерческая доступность сервиса резервного копирования в облако Windows Azure Backup
- Коммерческая доступность cервиса Windows Azure HDInsight (кластеры Hadoop как сервис)
- Публичное превью нового сервиса Hyper-V Recovery Manager
- Новые возможности работы с виртуальными машинами:
- Удаление дисков;
- Новые уведомления групп доступности;
- Конфигурирование SQL Server AlwaysOn;
- Новые функции Active Directory:
- Интеграция и управление сотнями сторонних SaaS-приложений;
- Управление Windows Azure;
- Поддержка Windows Azure в SQL Server 2014 CTP2;
- Поддержка Windows Server 2012
- Windows Azure SDK 2.2
- Поддержка Visual Studio 2013;
- Удаленная отладка облачных сервисов;
- Секционирование сущностей Windows Azure Service Bus;
- Новые библиотеки управления Windows Azure Management Libraries for .NET;
- Новые скрипты PowerShell и новый портал ScriptCenter;
- Снижение цен на ВМ с большим объемом памяти
- Опубликована предварительная программа конференции Cloud OS Summit
Windows Azure и Hadoop: «дружба», готовая к Enterprise
2013-11-04 в 16:32, admin, рубрики: big data, Hadoop, hdinsight, windows azure, YARN, Облачные вычисления, метки: big data, Hadoop, hdinsight, windows azure, YARNЗа последние пол месяца произошло 3 ИТ-события, лежащие в плоскости Big Data, Cloud Computing и на их симбиозе. По странному стечению обстоятельств эти события остались без должного внимания как со стороны хабросообщества, так и со стороны немногочисленных профессиональными сообществ в LinkedIn и Facebook.
Эти событий — конференция Strata + Hadoop World, релиз стабильной версии Hadoop 2.2.0 и облачного сервиса Windows Azure HDInsight. О косвенной и прямой связи этих событий речь и пойдет ниже.
Также ниже я приведу ссылки на ресурсы, которые будут более полезными, чем любой вольных пересказ содержимого этих ресурсов.
HBase, загрузка больших массивов данных через bulk load
2013-09-26 в 16:43, admin, рубрики: big data, BigData, Hadoop, java, метки: BigData, Hadoop, java Привет коллеги.
Хочу поделиться своим опытом использования HBase, а именно рассказать про bulk loading. Это еще один метод загрузки данных. Он принципиально отличается от обычного подхода (записи в таблицу через клиента). Есть мнение, что с помощью bulk load можно очень быстро загружать огромные массивы данных. Именно в этом я решил разобраться.
Читать полностью »
Вам не нужен Hadoop — у вас просто нет столько данных
2013-09-19 в 17:15, admin, рубрики: big data, Hadoop, высокая производительностьМеня спросили: «Сколько у вас опыта с большими данными и Hadoop?» Я ответил, что часто использую Hadoop, но редко — с объёмами данных больше нескольких ТБ. Я новичок в больших данных — понимаю идеи, писал код, но не в серьёзных масштабах.
Следующий вопрос был: «Можете ли вы сделать простую группировку и сумму в Hadoop?» Разумеется, могу, и я попросил пример формата данных.
Они вручили мне флэш-диск со всеми 600 МБ данных (да, это были именно все данные, а не выборка). Не понимаю, почему, но им не понравилось моё решение, в котором был pandas.read_csv и не было Hadoop.
Читать полностью »
Вы понимаете Hadoop неправильно
2013-09-18 в 19:16, admin, рубрики: big data, Hadoop, MapReduce, высокая производительность, метки: Hadoop, MapReduce— Мы получаем больше миллиона твитов в день, и наш сервер просто не успевает их обрабатывать. Поэтому мы хотим установить на кластер Hadoop и распределить обработку.
Речь шла о вычислительно тяжёлом сентиментном анализе, поэтому я мог поверить, что у одного сервера действительно не хватает CPU, чтобы справиться с большим потоком твитов.
— А что вы собираетесь делать с уже обработанными данными?
— Скорее всего, мы будем складывать их в MySQL, как делали это раньше, или даже удалять.
— Тогда вам определённо не нужен Hadoop.
Мой бывший коллега был далеко не первым, кто говорил про распределённые вычисления на Hadoop. И каждый раз я видел полное непонимание того, зачем была придумана и разработана эта платформа.
Hadoop Tutorial. Пишем свой grep
2013-08-12 в 9:13, admin, рубрики: Apache, big data, Hadoop, hello world, java, MapReduce, метки: big data, Hadoop, hello world, java, MapReduceДоброго времени суток, дорогое читатели. Не так давно я начал изучать работу с большими данными (Map/Reduce, NoSQL...) и очень быстро узнал о фреймворке с открытым исходным кодом Apache Hadoop, за изучение которого сразу и принялся.
Данный пост рассчитан на новичков, которые тоже не так давно начали изучать Hadoop. В посте будет разобрано небольшое приложение построенное на этом фреймворке(Этакий Hello World!). Кому интересно, добро пожаловать под кат.
Читать полностью »
Hadoop. Подробное руководство. 3-е издание
2013-07-04 в 15:25, admin, рубрики: Hadoop, nosql, Блог компании Издательский дом «Питер», метки: HadoopВозможно вы помните пост: Нужна ли книга по Hadoop?, в котором мы хотели узнать ваше мнение, стоит ли издавать эту книгу на русском языке. Прошли положенные 9 месяцев, и мы готовы представить её вашему вниманию.
Встречайте:



