Рубрика «BigData» - 5

Обзор (и видеозаписи) лучших докладов Java-конференции JPoint 2016: BigData, кишки JVM и паззлеры - 1

В апреле в Москве прошла JPoint 2016 – крупнейшая Java-конференция в России. Напомню, что на конференции было 50 докладов, которые шли в 4 треках в течение двух дней. В сентябре мы открыли доступ к видео для наших читателей, однако руки всё никак не доходили до публикации топ-10 докладов на Хабре.

Чтобы определить, какие спикеры понравились участникам конференции, мы собираем фидбеки, на основании которых получаем весьма достоверную взвешенную оценку для каждого из докладов.

Конечно, какие-то доклады оказываются лучше, какие хуже. Но в этом посте речь пойдет о 10 жемчужинах, лучших докладах, оценка каждого из которых оказалах выше 4.6 по пятибалльной шкале. Ссылка на остальные доклады по катом, так что вам будет чем заняться до Нового Года:)
Читать полностью »

Типовой сценарий работы «just in time» хранилища данных выглядит так: десятки (ETL) сессий почти непрерывно захватывают с источников данные и вставляют их в хранилище. Параллельно множество других (ELT) сессий отслеживают поступление данных, заполняют консолидированный слой и ведут расчет агрегатов и витрин. Одновременно с этим, на поступающих первичных и рассчитанных данных, выполняют запросы пользователи, BI и другие системы. Вся эта каша должна ладно вариться в рамках сервера хранилищ данных, без тормозов и затыков, какими бы не были пиковые нагрузки.

В HPE Vertica для планирования работы сервера под нагрузками разработан специальный механизм, под названием «ресурсные пулы». Идея его в том, что каждый пользователь сервера работает в рамках выделенного ресурсного пула, который регулирует приоритетность доступа к ресурсам кластера, ограничивает конкурентность выполнения запросов и описывает правила резервирования и работы с памятью сервера.

По умолчанию после установки сервера Vertica на созданной базе данных это выглядит примерно так:

Боремся с нагрузками в HPE Vertica - 1

Читать полностью »

Вебинар: Введение в Data Science - 1

Команда FlyElephant приглашает всех 21 декабря в 18.00 (EET) на вебинар «Введение в Data Science». В его рамках мы рассмотрим на примерах, что такое Data Science, Data Mining, Machine Learning и Deep Learning, кто такой data scientist и какими инструментами он пользуется для сбора, хранения, обработки и визуализации данных. Поговорим о платформе FlyElephant и чем она может быть полезна для работы data scientist’а.

Зарегистрироваться на вебинар можно Читать полностью »

Глава InfoWatch Наталья Касперская: большие данные россиян должны принадлежать государству - 1

Глава компании InfoWatch Наталья Касперская в своей беседе с ТАСС заявила, что по ее мнению большие данные россиян должны быть признаны собственностью государства.

«Мое мнение, что эти данные должны являться собственностью государства, потому что пользователи этими данными не обладают. Пользователь отпустил их в информационное пространство, и утекло все, что он там написал. Значит, это не их принадлежность», — приводит слова Касперской информационное агентство.
Читать полностью »

[Питер, анонс] Встреча JUG.ru с Андреем Ершовым: «Как мы делали телефонную платформу с использованием GridGain» - 1

В четверг, 1 декабря, в 20:00 в офисе компании SEMrush состоится встреча JUG.ru с Андреем Ершовым, экспертом по распределенным системам. Андрей расскажет, как они в DINO Systems (Ring Central) сделали телефонную платформу с использованием GridGain. Для понимания большей части доклада знание GridGain или In-Memory Data Grid в целом не является обязательным.
Читать полностью »

Добрый день, коллеги. Сегодня хочется трезво посмотреть глазами инженера на так популярные сейчас искусственный интеллект и Deep learning, упорядочить, выстроить факты и выработать выигрышную стратегию – как с этим … взлететь, пролететь и не упасть кому-нибудь на голову? Потому-что, когда дело от лабораторных моделей на python/matplotlib/numpy или lua доходит до высоконагруженного production в клиентском сервисе, когда ошибка в исходных данных сводит на нет все усилия – становится не то, что весело, а даже начинается нумерологический средневековый экстаз и инженеры начинают сутки напролет танцевать, в надежде излечиться от новомодной чумы )

Искусственный интеллект, вызовы и риски – глазами инженера - 1
Танцующие инженеры, тщетно надеющиеся исцелиться
Читать полностью »

Продолжение, начало было тут. Отдельно хочу обратить внимание на программку «HPE Synergy Planning Tool».

В продолжении анонсированного цикла статей про HPE Synergy начнем с описания шасси, или, как пишет сам производитель — «The HPE Synergy 12000 Frame is a key element of HPE Synergy».
Читать полностью »

Apache Spark – универсальный инструмент для процессинга больших данных, с которым можно писать в Hadoop с различных СУБД, стримить всякие источники в реальном времени, параллельно делать с данными какую-нибудь сложную обработку, и все это не при помощи каких-то батчей, скриптов и SQL-запросов, а при помощи функционального подхода.

Твоя Data такая большая: Введение в Spark на Java - 1

Про Spark ходит несколько мифов:

  • Spark’y нужен Hadoop: не нужен!
  • Spark’у нужна Scala: не обязательно!

Почему? Смотрите под катом.
Читать полностью »

Изначально я планировал написать одну небольшую статью, но, по мере погружения в тему понял, что скорее всего понадобится серия из 5-6 статей, чтобы раскрыть суть достаточно полно.

О чем пойдет речь? О продукте компании Hewlett-Packard Enterprise (дальше – просто HPE) – Synergy.
Читать полностью »

Нигде, наверно, нет такой насущной необходимости в синергии знаний разных областей науки — как в области машинного обучения и Deep Learning. Достаточно открыть капот TensorFlow и ужаснуться — огромное количество кода на python, работающее с тензорами внутри… C++, вперемешку с numpy, для выкладки в продакшн требующее чуток покодить «на плюсах», вприкуску с bazel (это так волнует, всю жизнь мечтал об этом!). И другая крайность — ребята из Deeplearning4j прокляли python к чертовой матери и вращают тензоры на старой и доброй java. Но дальше всех ушли, похоже, студенты из университета Нью-Йорка — люди, причем не только студенты, причем давно и серьезно жгут на Luajit + nginx (аминь по католически). Ситуация осложняется недавним демаршем Google DeepMind в отношении «дедушки torch»: все проекты переводят на свой внутренний движок, родившийся из DistBelief.
Полнейший хаос и бардак.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js