Рубрика «big data» - 133

CASSANDRA CONF 2013. Екатеринбург, 9 декабря

2013-11-19 в 9:15, admin, рубрики: big data, cassandra, nosql, Блог компании IT-People, конференция, метки: cassandra, nosql, конференция

9 декабря в Екатеринбурге пройдет первая в России конференция, посвященная NoSQL-хранилищу Cassandra. Мы уже сформировали программу CassandraConf.ru и приглашаем присоединиться как опытных разработчиков, так и тех, кто хочет познакомиться с Cassandra впервые!

Участие в конференции бесплатное — приезжайте!

Под катом — программа мероприятия и подробности

Читать полностью »

Hadoop, часть 2: сбор данных через Flume

2013-11-07 в 11:12, admin, рубрики: big data, Hadoop, selectel, Блог компании Селектел, селектел, метки: big data, Hadoop, selectel, селектел

В предыдущей публикации мы подробно рассмотрели процесс развертывания кластера Hadoop на базе Cloudera. В этой статье мы хотели бы подробно рассказать о методах и инструментах для сбора данных в Hadoop. Загрузить данные в систему можно как с помощью простого копирования в HDFS, так и с помощью специальных инструментов.
Читать полностью »

Кластеры Hadoop по запросу из облака: внутреннее устройство, первые шаги, задачи, Hive

2013-11-06 в 5:13, admin, рубрики: Apache, big data, Hadoop, hdinsight, map reduce, open source, windows azure, Облачные вычисления, облачные сервисы

Некоторое время назад, в рамках конференции Strata + Hadoop World был анонсирован выход в коммерческой эксплуатацию Windows Azure HDInsight — облачного сервиса 100% совместимого с Apache Hadoop. Подробности о истории появления сервиса и его возможностях можно найти в этой статье на Хабре. Об анонсах конференции Strata + Hadoop World можно прочитать в другой свежей статье.

В этой статье речь пойдет о внутреннем устройстве кластеров HDInsight, старте работы с ними и первых задачах и запросах к Hive. В конце статьи приводятся реальные примеры использования Windows Azure HDInsight крупными международными организациями.

Windows Azure HDInsight предлагает следующие преимущества для своих пользователей:

Работа с большими данными с помощью знакомых инструментов: благодаря глубокой интеграции с инструментами бизнес-аналитики от Microsoft, такими как PowerPivot, Power View и Excel, сервис HDInsight позволяет вам легко анализировать ваши данные с помощью возможностей Hadoop. Прозрачно объединяйте данные из различных источников данных, включая HDInsight с помощью Power Query. Легко анализируйте и визуализируйте географические данные с помощью Power Map – новый картографический 3D-инструмент в Excel 2013;
Гибкость – HDInsight предлагает гибкость соответствующую изменениям потребностей вашей организации. С богатый набором скриптов PowerShell вы можете размещать и администрировать кластер Hadoop за считанные минуты вместо привычных часов или даже дней. Если вам нужен кластер большего размера, просто удалите существующий и создайте новый нужного размера в течении нескольких минут без потери каких либо данных;
Hadoop корпоративного уровня: HDInsight предлагает безопасность и управляемость корпоративного уровня. Благодаря выделенному узлу Secure Node, сервис HDInsight помогает обезопасить ваш кластер Hadoop. В дополнение, мы упростили управление вашим кластером Hadoop с помощью внушительного набора скриптов PowerShell;
Богатые возможности для разработчиков: сервис HDInsight предлагает мощные возможности для разработки приложений с богатым выбором языков, включая .NET, Java и другие. Разработчики на платформе .NET могут воспользоваться мощью запросов LINQ to Hive.

Читать полностью »

Windows Azure и Hadoop: «дружба», готовая к Enterprise

2013-11-04 в 16:32, admin, рубрики: big data, Hadoop, hdinsight, windows azure, YARN, Облачные вычисления, метки: big data, Hadoop, hdinsight, windows azure, YARN

За последние пол месяца произошло 3 ИТ-события, лежащие в плоскости Big Data, Cloud Computing и на их симбиозе. По странному стечению обстоятельств эти события остались без должного внимания как со стороны хабросообщества, так и со стороны немногочисленных профессиональными сообществ в LinkedIn и Facebook.

Эти событий — конференция Strata + Hadoop World, релиз стабильной версии Hadoop 2.2.0 и облачного сервиса Windows Azure HDInsight. О косвенной и прямой связи этих событий речь и пойдет ниже.

Также ниже я приведу ссылки на ресурсы, которые будут более полезными, чем любой вольных пересказ содержимого этих ресурсов.

HDInsight Ecosystem
Читать полностью »

Распространение эпидемий: Анализ соцмедиа VS. анализ запросов Google Flu

2013-11-01 в 13:02, admin, рубрики: big data, Facebook, Google, twitter, Блог компании PalitrumLab, Вконтакте, Исследования и прогнозы в IT, социальные сети, соцмедиа, метки: Facebook, Google, twitter, Вконтакте, социальные сети, соцмедиа

Вы слышали про Google Flu? С помощью анализа поисковых запросов, Google строит график динамики «заболеваемости» во времени. Мы решили проверить данные Google, сравнив их с количеством упоминаний различных простудных симптомов в соцмедиа в России: когда и где зафиксированы вспышки эпидемий, кто чаще всего болеет и на что жалуется? Ответы под катом.

Читать полностью »

И снова Vertica на HighLoad++

2013-10-30 в 22:13, admin, рубрики: big data, Vertica, Блог компании «LifeStreet Media», метки: highload, Vertica

Как и в прошлом году, выступил на HighLoad++. На этот раз мой доклад шел в секции «Базы данных», я рассказывал о том, какие системы хранения рационально использовать для задач многомерного анализа больших данных. Слайдов на сайте организаторов пока нет, но, наверное будут. Вкратце, презентация была построена так:

Постановка задачи, то есть что такое многомерный анализ больших данных
Функциональные требования, которые следуют из постановки задачи
Технические сложности
Как их можно решать, при помощи каких архитектурных решений и систем

Вертика была представлена как один из вариантов, но про нее я рассказывал подробнее всего, показывая, как и за счет каких архитектурных решений она хорошо подходит под аналитические задачи и обгоняет всех конкурентов. Читать полностью »

Лаборатория данных

2013-10-28 в 14:52, admin, рубрики: big data, dataviz, Блог компании Лаборатория данных, визуализация данных, интерфейсы, информационный дизайн, Лаборатория данных, метки: big data, dataviz, визуализация данных, информационный дизайн, Лаборатория данных

Сложные данные всегда были моей страстью. В 2007 году с подачи Артёма Горбунова я прочитала все книги Тафти и открыла для себя информационный дизайн. Первая визуализация — пассажиропотоки в метро — стала для меня счастливым билетиком в бюро, тогда же появился псевдоним Инфотанька. С тех пор я работала над тигриным календарём и бюрошными инфограммами, мобильным приложением «Веб-наблюдатель» со статистикой нарушений и информативным логотипом, умными маркетинговыми графиками для Зептолаба, интерфейсами Oh my stats!.

Лаборатория данных

В июне этого года я, наконец, решила посвятить себя тому, что умею делать лучше всего, — визуализации данных. Так появилась лаборатория. Читать полностью »

Активные авторы в социальных медиа: исследование по возрастным группам

2013-10-24 в 6:35, admin, рубрики: big data, livejournal, Блог компании PalitrumLab, Вконтакте, исследование пользователей, социальные сети, Социальные сети и сообщества, метки: livejournal, Вконтакте, исследование пользователей, социальные сети

Исследования общественного мнения в соцмедиа имеют право на жизнь только в том случае, когда анализируются не только тексты сообщений, но и социально-демографические характеристики их авторов. Неправильно было бы учитывать высказывания петербуржцев при исследовании проблем жителей Чукотки, нельзя учитывать мнения пользователей старше 45 для получения инсайтов о молодежном продукте или мнения пользователей младше 18 лет для прогнозирования результатов выборов. Мы уже публиковали информацию о распределении активных авторов по регионам России, а сегодня поделимся нашими новыми данными: под катом – первые результаты исследования о возрасте активных авторов социальных медиа.
Читать полностью »

Кто живет в соцсетях?

2013-10-23 в 11:03, admin, рубрики: big data, data mining, Facebook, Вконтакте, Инфографика, одноклассники, Социальные сети и сообщества, фейсбук, метки: Facebook, Вконтакте, инфографика, одноклассники, фейсбук

Как бы ни гремели скандалы про PRISM, про персональные данные и их утечки, социальные сети так и манят поведать о себе всё: какие котята нравятся, с кем ты дружишь и почему с утра такой не выспавшийся.
Целая энциклопедия о поведении большинства интернет-активной публики лежит совсем рядом, и мне всегда хотелось её пощупать. С одной стороны, эти данные лежат вроде бы в открытом доступе, но просто взять и проанализировать их не так легко — всё слишком неструктурировано и разрозненно. К тому же, насколько я знаю, пригодных для машинного анализа наборов данных о соцсетях практически не существует. А для России — так и подавно.
Выбора не оставалось, и пришлось, зловеще хохоча по ночам, писать простеньких пауков для соцсетей ВКонтакте, Одноклассники, МойМир и русского сегмента Фейсбук, которые за несколько месяцев неспешно собрали более или менее статистически-корректный семпл данных. Собиралась только та информация, которую люди сами о себе рассказали. А рассказали они много.

О том, что удалось выудить из таких данных, и пойдет рассказ.Читать полностью »

ETL-процесс с использованием веб-сервисов в Integration Services 2012

2013-10-19 в 20:13, admin, рубрики: big data, BigData, Business Intelligence, c#.net, data mining, datamining, etl, MS Sql Server, SSIS, XML, метки: BigData, Business Intelligence, c#.net, datamining, etl, MS Sql Server, SSIS, XML

Запасаем впрок

Иногда в процессе работы бывают нужны данные из веб-сервисов, тем более SOAP соединения сегодня практически стандарт.

ETL-процесс (Extract — Transform — Load) это термин из Business Intelligence и описывает процесс сбора и трансформации данных для создания аналитической базы данных (например хранилища данных).

SOAP протокол обмена данных и веб-сервисы описываемые WSDL — распространенные окна в мир практически всех ERP систем, многих онлайн порталов и финансовых организаций.

Попробую описать пошагово ETL процесс с помощью одного из мощнейших инструментов в классе — MS Integration Services.

Итак, рассмотрим тестовую задачу.

Задача

Необходимо собрать данные о курсах валют по отношению к рублю на каждую дату прошлого года и загрузить их в таблицу для последующего анализа. Центробанк России предоставляет историчекие данные — в виде веб сервисов с неплохим описанием.
Похоже это и есть решение.
Читать полностью »

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «big data» - 133

CASSANDRA CONF 2013. Екатеринбург, 9 декабря

Hadoop, часть 2: сбор данных через Flume

Кластеры Hadoop по запросу из облака: внутреннее устройство, первые шаги, задачи, Hive

Windows Azure и Hadoop: «дружба», готовая к Enterprise

Распространение эпидемий: Анализ соцмедиа VS. анализ запросов Google Flu

И снова Vertica на HighLoad++

Лаборатория данных

Активные авторы в социальных медиа: исследование по возрастным группам

Кто живет в соцсетях?

ETL-процесс с использованием веб-сервисов в Integration Services 2012

Запасаем впрок

Задача

Архив

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «big data» - 133

Запасаем впрок

Задача

Новости

Актуальные темы

Архив