Рубрика «BigData» - 6

Доброго времени суток! У нас открылось совершенно новое направление обучения — BigData, а это значит, что немного расширяется горизонт материалов, которыми мы будем делиться с вами. Сегодня рассмотрим Luigi, как часть того, что раскрывается на нашем курсе.

Luigi — фреймворк на языке Python для построения сложных последовательностей по выполнению зависимых задач. Довольно большая часть фреймворка направлена на преобразования данных из различных источников (MySql, Mongo, redis, hdfs) и с помощью различных инструментов (от запуска процесса до выполнения задач разных типов на кластере Hadoop). Разработан в компании Spotify и открыт в виде open source инструмента в 2012 году.

Самое главное преимущество фреймворка — возможность выстраивать последовательности зависимых задач. Фреймворк разрешает зависимости, отслеживает граф выполнения, управляет запуском задач, обрабатывает ошибки с возможностью перезапуска нужных задач, распределяет ресурсы рабочих процессов с возможностью параллельной работы независимых частей графа задач.

Для выполнения всех этих задач существуют и другие инструменты. Это Oozie, Pinball, Airflow (находится в статусе инкубации в Apache — проходит различные проверки, недавно вышел обзор на хабре). В данной статье рассмотрим только Luigi.

Обзор фреймворка Luigi для построения последовательностей выполнения задач - 1
Читать полностью »

На Хабре и прочих интернетах чуть не каждый день постят пустые статьи о бигдата, создавая у спецов стойкое ощущение, что кроме маркетинга за стеком бигдаты ничего нет. На самом деле там достаточно интересных технологий под капотом Hadoop и тут я хочу слегка разбавить маркетинг, взглядом технического спеца с опытом Oracle.

В первую очередь стоит понимать, что один из столпов бигдаты Hadoop, это не только батч процессинг и map-reduce, как многие пытаются изобразить. Это запросто может быть обработка и с противоположного спектра задач: чтение потока мелких сообщений, например от IoT (spark на Hadoop, читает Kafka stream), на ходу агрегируя и выявляя отклонения.Читать полностью »

image

1 сентября мы рады пригласить вас на очередную встречу сообщества Moscow Data Science, где вы сможете обменяться практическим опытом решения задач анализа данных и пообщаться с единомышленниками. Для одного дня программа очень насыщенная, будет две секции докладов, а среди выступающих два докладчика из ближнего зарубежья. Также гостей митапа ждёт экскурсия по офису Mail.Ru Group и розыгрыш сувениров. Присоединяйтесь! Программа встречи под катом.
Читать полностью »

Всем привет.

С сегодняшнего дня Райффайзенбанк начинает свое вещание на Хабрахабр. За последние 2-3 года мы многое сделали с точки зрения внутренних преобразований, запуска и реализации ИТ-проектов. И нам есть, о чем рассказать.
Читать полностью »

10 способов достижения HighLoad'а и BigData на ровном месте - 1

Илья Космодемьянский ( hydrobiont )

Есть типичные ошибки работы с хранилищем, и эти ошибки, не то чтобы я их выдумываю специально, но поскольку мы много работаем с удаленной поддержкой баз данных, мы их просто коллекционируем. Зачастую одни и те же от клиентов. И составляем своеобразный рейтинг того, что наколлекционировали. Об этих вещах я и буду сегодня рассказывать.
Читать полностью »

О том, что за BigData помноженной на искусственный интеллект стоит невероятное будущее написано уже чуть ли не больше, чем собрание сочинений братьев Стругацких и Жуля Верна вместе взятых. Все они, и не совсем без основательно, утверждают, что собранные огромные массивы данных, обработанные с помощью, например, Deep Learning смогут уже сегодня выявить всех мошенников, предотвратить сомнительные сделки и предсказать самые высокодоходные рынки. Сама же по себе финансовая отрасль станет полностью автоматизированной под управлением мудрого искусственного интеллекта.

Наверное, так и будет до некоторой степени. Уже сегодня степень автоматизации достигла такого уровня, который еще 10 лет назад казался фантастикой. Все так… Но, как известно, «мелочи» могут привнести множество сюрпризов. Одной из таких мелочей является тот факт, что львиная доля всех данных, которые можно и нужно было бы использовать в задачах борьбы с мошенничеством, прогнозированием рынков представляют собой текстовые данные. Количество ежедневно порождаемых письменных, видео и других данных составляет миллиарды строк, анализ которых с помощью операторов практически бесполезен. Кто-то может, поспорить, что все не так и большинство данных представляют собой обычные таблицы, которые хорошо обрабатываются статистическими методами. И, казалось бы, он будет прав. Банки из TOP-30 рапортуют о широком использовании BigData. Читать полностью »

В последнее время имена GridGain и Apache Ignite нередко мелькают в интернетах. Однако, судя по комментариям (например, здесь), мало кто понимает, что же это за продукт и с чем его едят.

В этой статье я попытаюсь доступным языком объяснить, и на примерах кода показать, что умеет Apache Ignite.

Apache Ignite Logo

Читать полностью »

Видеозапись вебинара «Julia — A fresh approach to numerical computing and data science» - 1

Команда FlyElephant в марте проводила вебинар с со-основателем и CEO в Julia Computing, а также со-автором языка Julia — Viral B. Shah, на тему "Julia — A fresh approach to numerical computing and data science".

Читать полностью »

IHS Automotive предсказывает, что к 2020 порядка 152 миллионов «подключенных» машин будут ежедневно генерировать до 30 терабайт данных. И бизнес, который сумеет грамотно воспользоваться этим богатством, очевидно, окажется «на коне». Поговорим о том, какую информацию можно использовать и что для этого нужно.

Big Data для автодилера и автопроизводителя: от идеи до монетизации - 1

Читать полностью »

Константин Докучаев, автора блога All-in-One Person и телеграм-канала @themarfa, рассказал специально для «Нетологии» о двух почтовых сервисах: Tutanota и ProtonMail и объяснил, какой из них выбрать и почему.

image

Сегодня уже не так часто услышишь о важности частной переписки, о методах её защиты и шифровании переписки. Но я всё равно решил взглянуть на два популярных почтовых сервиса с end-to-end шифрованием: Tutanota и ProtonMail. Они предлагают безопасную переписку с шифрованием всех писем. Давайте разберём подробно, что дают оба сервиса, и стоит ли прятать свою переписку от ФСБ или других спецслужб и конкурентов.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js