Рубрика «big data» - 81

Небольшое сравнение производительности СУБД «MongoDB vs ClickHouse»

2017-01-29 в 23:27, admin, рубрики: big data, clickhouse, mongdb, mongodb, nosql, sql

Так как колоночная СУБД ClickHouse (внутренняя разработка Яндекс) стала доступна каждому, решил использовать эту СУБД заместо MongoDB для хранения аналитических данных. Перед использованием сделал небольшой тест производительности и хочу поделиться результатами с IT сообществом.
Читать полностью »

Crowd разработка скоринговой системы для IEM системы

2017-01-27 в 9:53, admin, рубрики: big data, ERP-системы, Анализ и проектирование систем, Блог компании Ultima

Привет. У нас есть огромный опыт в разработке систем для автоматизации предприятий, но к сожалению, я почти ничего не помню из математической статистики. Вообще у меня была кафедра дискретной математики. Но есть идея сделать проект, который в кулуарах носит название Железный Феликс.
Читать полностью »

Обзор Knime Analytics Platform — open source системы для анализа данных

2017-01-26 в 10:21, admin, рубрики: big data, data analysis, data mining, data science, KNIME, визуализация данных

О KNIME

Вашему вниманию представляется обзор Knime Analytics Platform – open source фреймворка для анализа данных. Данный фреймворк позволяет реализовывать полный цикл анализа данных включающий чтение данных из различных источников, преобразование и фильтрацию, собственно анализ, визуализацию и экспорт.

Скачать KNIME (eclipse-based десктоп приложение) можно отсюда: www.knime.org

Кому может быть интересна эта платформа:

Тем, кто хочет анализировать данные
Тем, кто хочет анализировать данные и не владеет навыками программирования
Тем, кто хочет покопаться в неплохой библиотеке реализованных алгоритмов и, возможно, узнать что-то новое

Читать полностью »

Разработка на R: тайны циклов

2017-01-26 в 6:24, admin, рубрики: big data, data mining, microsoft, R, Блог компании Microsoft, Большие данные, журнал хакер, машинное обучение, Программирование, хакер, язык r

Меньше недели назад в журнале Хакер вышла авторская версия материала, посвященного фичам при использовании циклов при разработке на R. По согласованию с Хакером, мы делимся полной версией первой статьи. Вы узнаете о том, как правильно писать циклы при обработке больших объемов данных.

Разработка на R: тайны циклов - 1 Читать полностью »

Самые популярные слова в двух терабайтах кода

2017-01-25 в 4:00, admin, рубрики: big data, bigquery, github, javascript, open source, Программирование, Разработка веб-сайтов

Привет, Друзья!

Я тут проанализировал 2ТБ кода и получил самые популярные слова в разных языках программирования. Результаты можно посмотреть в виде облаков тегов и простым списком:

Сайт находится здесь, а его исходники можно почитать на гитхабе.

Под катом описано в деталях о том как собирались данные, как строился сайт и как укладывались облака. И немножко наблюдений.

Приятного чтения!
Читать полностью »

Производительность сети малой латентности InfiniBand на виртуальном кластере HPC HUB

2017-01-24 в 11:44, admin, рубрики: big data, HPC, hpchub, infiniband, mpi, open source, openstack, virtualization, Блог компании HPC HUB, высокая производительность, параллельное программирование, метки: hpchub

Моделирование сложных физических процессов в наши дни рассматривается как важная технологическая возможность многими современными компаниями. Широко используемым сейчас подходом для создания вычислителей, способных рассчитывать сложные модели, является создание кластерных систем, где вычислительный узел представляет собой сервер общего назначения, подключенный к сети малой латентности и управляемый своей собственной ОС (как правило, из семейства GNU/Linux).

Введение виртуализационного слоя в системное ПО вычислительных кластеров, позволяет в течение нескольких минут создавать “виртуальный кластер”. Такие виртуальные кластера в рамках одной OpenStack инфраструктуры являются абсолютно независимыми. Пользовательские программы внутри них могут изменяться так, как нужно пользователю без каких-либо согласований с кем-либо, а логические устройства, на которых находятся пользовательские данные, недоступны другим виртуальным кластерам.

Поддержка сети малой латентности виртуализационными решениями представляет собой отдельную сложную проблему. Для прикладных программ в большинстве случаев современная виртуализация на основе KVM приводит к минимальным потерям вычислительной мощности (<1%). Однако специализированные тесты сетей малой латентности показывают накладные расходы от виртуализации не более 20% на операциях синхронизации.
Читать полностью »

Система рекомендаций интернет магазина на основе методов машинного обучения в Compute Engine (Google Cloud Platform)

2017-01-17 в 13:06, admin, рубрики: big data, cloud, cloud computing, GCP, Google, Google API, Google Cloud Platform, machine learning, Блог компании Softline, машинное обучение, облака, облачные технологии, Программирование, разработка мобильных приложений

С помощью сервисов Google Cloud Platform можно создать эффективную масштабируемую систему рекомендаций для интернет-магазина.

На рынке интернет-торговли сложилась интересная ситуация. Хотя общий денежный поток вырос, увеличилось и количество продавцов. Это привело к тому, что доля каждого магазина уменьшилась, а конкуренция между становится все напряженнее. Один из способов увеличить средний размер покупки (а значит, и прибыль) – предлагать покупателям дополнительные товары, которые могут их заинтересовать.

Из этой статьи вы узнаете, как на базе Cloud Platform настроить среду для поддержки базовой системы рекомендаций, которую со временем можно будет доработать и расширить.

В ней описывается решение для сайта агентства по аренде недвижимости, позволяющее подбирать и предлагать рекомендации пользователям.

Про HPE Synergy – часть V. Управление

2017-01-13 в 6:42, admin, рубрики: big data, devops, HPE, SDDC, synergy, инфраструктура, ит-инфраструктура, Серверная оптимизация, системное администрирование, хранение данных

Про HPE Synergy – часть V. Управление.

Начало:

Часть I (Вступление) — habrahabr.ru/post/308224
Часть II (Шасси и сервера) — habrahabr.ru/post/310092
Часть III – Дисковое хранилище D3940 и SAS-коммутаторы — habrahabr.ru/post/310564
Часть IV – Наши сети — habrahabr.ru/post/313240

Начал писать эту часть еще в октябре, но потом пошла «жара конца года» по проектам, а потом одолела новогодняя прокрастинация, но уже январь, и надо сделать финальное усилие =).
Читать полностью »

С чего начать внедрение Hadoop в компании

2017-01-09 в 0:44, admin, рубрики: big data, data mining, Hadoop, highload junior, алексей еремихин, Блог компании Конференции Олега Бунина (Онтико), высокая производительность, Проектирование и рефакторинг, метки: алексей еремихин

С чего начать внедрение Hadoop в компании - 1

Алексей Еремихин ( alexxz )

Я хочу навести порядок в головах, чтобы люди поняли, что такое Hadoop, и что такое продукты вокруг Hadoop, а также для чего не только Hadoop, но и продукты вокруг него можно использовать на примерах. Именно поэтому тема — «С чего начать внедрение Hadoop в компании?»

Структура доклада следующая. Я расскажу:

какие задачи я предлагаю решать с помощью Hadoop на начальных этапах,
что такое Hadoop,
как он устроен внутри,
что есть вокруг него,
как Hadoop применяется в Badoo в рамках решения задач с первого пункта.

Читать полностью »

Hadoop From Scratch

2017-01-06 в 18:07, admin, рубрики: big data, Hadoop

Hadoop From Scratch - 1 Эта статья послужит практическим руководством по сборке, начальной настройке и тестированию работоспособности Hadoop начинающим администраторам. Мы разберем, как собрать Hadoop из исходников, сконфигурировать, запустить и проверить, что все работает, как надо. В статье вы не найдете теоретической части. Если вы раньше не сталкивались с Hadoop, не знаете из каких частей он состоит и как они взаимодействуют, вот пара полезных ссылок на официальную документацию:

hadoop.apache.org/docs/r2.7.3/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html
hadoop.apache.org/docs/r2.7.3/hadoop-yarn/hadoop-yarn-site/YARN.html

Почему просто не использовать готовый дистрибутив?

— Обучение. Похожие статьи часто начинаются с рекомендаций скачать образ виртуальной машины с дистрибутивом Cloudera или HortonWorks. Как правило, дистрибутив – сложная экосистема с уймой компонент. Новичку будет непросто разобраться, где что, и как это все взаимодействует. Начиная from scratch мы немного уменьшаем порог вхождения, так как имеем возможность рассматривать компоненты по одной.

— Функциональные тесты и бенчмарки. Есть небольшой лаг между выходом новой версии продукта, и моментом, когда она появляется в дистрибутиве. Если вам необходимо протестировать новые функции только что появившейся версии, Вы не сможете использовать готовый дистрибутив. Также будет сложно сравнить производительность двух версий одного и того же софта, так как в готовых дистрибутивах как правило отсутствует возможность обновить версию какого-либо одного компонента, оставив все остальное как есть.

— Just for fun.
Читать полностью »

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «big data» - 81

Небольшое сравнение производительности СУБД «MongoDB vs ClickHouse»

Crowd разработка скоринговой системы для IEM системы

Обзор Knime Analytics Platform — open source системы для анализа данных

О KNIME

Разработка на R: тайны циклов

Самые популярные слова в двух терабайтах кода

Производительность сети малой латентности InfiniBand на виртуальном кластере HPC HUB

Система рекомендаций интернет магазина на основе методов машинного обучения в Compute Engine (Google Cloud Platform)

Про HPE Synergy – часть V. Управление

С чего начать внедрение Hadoop в компании

Алексей Еремихин ( alexxz )

Hadoop From Scratch

Архив

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «big data» - 81

О KNIME

Алексей Еремихин ( alexxz )

Новости

Актуальные темы

Архив