Рубрика «etl»

Привет!

Потоки данных между системами стабильно увеличиваются, и в обозримом будущем эта тенденция вряд ли изменится, что создает постоянную потребность в инструментах для работы с данными.

Apache NiFi — программный продукт с открытым исходным кодом, написанный на языке Java, предназначенный для автоматизации потоков данных между системами. Главная его задача: организовывать ETL‑процессы. На GitHub у Apache NiFi имеется 5.9 тысяч звезд.

Для тех, кто не знает, что такое Apache NiFi советую прочитать отличную статью.

Читать полностью »

В этой статье мы поговорим о том, как реализовать поведение атомарной вставки в ClickHouse. Рассмотрим несколько вариантов, подсветим их сильные и слабые стороны, а также, когда каждый из них применять.

Задача

Мы хотим добиться, чтобы не было случаев, когда мы начали вставку, а пользователь прочитал данные до её завершения и получил неактуальный (неполный) набор данных.

Неатомарная вставка = риск чтения некорректного набора данных.

Сценарии, когда такое может произойти:

  1. Удалили партицию и хотели начать вставлять данные взамен удалённой, но пользователь обратился к этому интервалу.

  2. Читать полностью »

Привет, Habr!

Ятимлид достаточно молодой команды разработки и недавно столкнулась с недопониманием у ребят различий между процессами загрузки данных ETL и ELT. Решила разобрать разницу в одной статье, попробовать объяснить где и почему нужно использовать ETL и зачем понадобился ELT. Также в статье попробую ответить на вопрос — какой подход выбрать.

И это моя первая статья на Habr, буду рада поддержке.

Читать полностью »

В русскоязычной части интернета присутствует много статей по теме паттернов разработки, однако я не нашел никакой информации о паттернах работы с данными.

В данной статье я хочу рассказать о паттерне Write-Audit-Publish, о предпосылках его появления, а также наглядно рассмотреть как он работает.

История зарождения

С момента появления концепции data lake, компании старались собирать как можно данных, иногда не слишком задумываясь об их качестве. Появилось четкое понимание, что данные "когда-нибудь" могут быть использованы. Так, согласно исследованиям market.usЧитать полностью »

Как я разработал скрипт для загрузки данных и разгрузил ИТ-отдел - 1

Максим Бритвин

Старший консультант-разработчик департамента EPM, «КОРУС Консалтинг»

Читать полностью »

С возникновением первых вычислительных машин предприятия осознали потребность в обработке и анализе информации.

В 1980-е годы они приступили к формированию информационных хранилищ, основанных на реляционных базах данных, которые стали ключевым инструментом для принятия взвешенных решений.

Но по мере того как компании накапливали всё больше разнородных сведений, недостатки реляционных баз данных становились всё более явными.

С началом нового тысячелетия мы вступили в эпоху больших данных.Читать полностью »

Меня зовут Константин Бражников, я заместитель директора департамента развития клинических и образовательных проектов в Сеченовском Университете. Сегодня это исследовательский медицинский университет мирового уровня, и у него три направления деятельности: наука, образование и медицинская практика.

В структуре университета работает пять университетских клинических больниц, где ежегодно проходят лечение около 500 000 пациентов. Накопленная статистика по клиническим случаям — один из источников для научных работ наших сотрудников.

В прошлом году мы уже кратко Читать полностью »

ETL-проект для начинающих Data Engineers: От почтового сервера до Greenplum - 1

Привет!
Меня зовут Дмитрий и я работаю инженером данных.

Читать полностью »

Консолидация баз данных: этапы, методы и примеры - 1


Сейчас во всём мире объёмы данных растут с невероятной скоростью, и чтобы эффективно использовать их потенциал, требуется правильное хранение и управление информацией. Одним из наиболее эффективных способов решения этой проблемы является консолидация баз данных. Но что это такое и как её правильно реализовать? В этой статье мы разберёмся, какую пользу может принести консолидация баз данных и как её провести на практике. Если вы хотите оптимизировать свою работу с данными, то эта статья для вас!Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js