Рубрика «etl»

Топ-10 требований к ИТ-системе бюджетирования

2026-04-27 в 8:15, admin, рубрики: BigData, etl, Excel, бюджетирование, ит-системы, совместная работа, требования к системе, финансовый план

В условиях глобальной неопределенности финансовое планирование и бюджетирование перестает быть ритуалом подготовки отчетов – сегодня это живой процесс, который определяет жизнеспособность компании, развивая базовые подходы в комплексную систему интегрированного планирования.

Бюджетирование – очень важная, интересная и нетривиальная задача, которую в современном мире принято решать при помощи автоматизации. Если еще 5 лет назад в системе бюджетирования видели инструмент консолидации и план-факт анализа, то сегодня это комплексная высокотехнологична модель бизнеса.

Читать полностью »

AI и Data engineering: Что реально происходит с профессией?

2026-02-20 в 17:25, admin, рубрики: AI, data engineer, data engineering, data quality, etl, schema, инженер данных, искусственный интеллект, качество данных, Модель данных

Читать полностью »

Почему ваши dbt-тесты врут, или Зачем дата-инженеру статистика

2026-02-13 в 8:21, admin, рубрики: data quality, etl, etl-пайплайн, ETL-процессы, качество данных, статистика

Привет! Меня зовут Черняховский Денис, и я Data Engineer. Я достаточно продолжительное время работаю с данными и увлекаюсь математической статистикой. Совсем недавно решил поискать в интернете, как другие опытные дата-инженеры исследуют качество данных при помощи статистики, и обнаружил, что никак… пум-пум-пум. А далее обнаружил, что проблема уходит корнями гораздо глубже, чем может показаться.

В этой статье я постараюсь рассказать:

почему дата-инженерам необходимо использовать статистику и почему её не используют
проведём тесты на реальных примерах данных
Читать полностью »

Автостопом по граблям: асинхронное лимитирование запросов в Python

2026-01-05 в 17:46, admin, рубрики: async pattern, asyncio, etl, python, rate_limiting

На днях мне прилетела задача, в которой нужно было вычерпывать данные по HTTP с такими вводными:

Есть ограничение по количеству запросов в минуту
Объём данных - миллионы записей
Один запрос выполняется долго (возвращает много данных)
Нужен асинхронный механизм выгрузки

Не включая мозг, я начал накидывать решение...

Грабли №1: async, который работает синхронно

async def fetch_all_pages():
    ...
    while True:
        response = await fetch(   # ← ошибка
            f"/resource?page={page}"
        )
        ...
        page += 1
        ...

Формально:

async
await

Фактически:

один запрос за разЧитать полностью »

Расширяем функционал Apache NiFi 2.0: руководство к написанию своего процессора

2025-11-23 в 16:31, admin, рубрики: apache nifi, big data, etl, java

Привет!

Потоки данных между системами стабильно увеличиваются, и в обозримом будущем эта тенденция вряд ли изменится, что создает постоянную потребность в инструментах для работы с данными.

Apache NiFi — программный продукт с открытым исходным кодом, написанный на языке Java, предназначенный для автоматизации потоков данных между системами. Главная его задача: организовывать ETL‑процессы. На GitHub у Apache NiFi имеется 5.9 тысяч звезд.

Для тех, кто не знает, что такое Apache NiFi советую прочитать отличную статью.

Читать полностью »

Atomic insert in Clickhouse

2025-11-23 в 8:15, admin, рубрики: atomic, clickhouse, etl, insert, sql, атомарность, витрины данных, кликхаус

В этой статье мы поговорим о том, как реализовать поведение атомарной вставки в ClickHouse. Рассмотрим несколько вариантов, подсветим их сильные и слабые стороны, а также, когда каждый из них применять.

Задача

Мы хотим добиться, чтобы не было случаев, когда мы начали вставку, а пользователь прочитал данные до её завершения и получил неактуальный (неполный) набор данных.

Неатомарная вставка = риск чтения некорректного набора данных.

Сценарии, когда такое может произойти:

Удалили партицию и хотели начать вставлять данные взамен удалённой, но пользователь обратился к этому интервалу.

Читать полностью »

ETL & ELT. От перестановки «слагаемых» результат меняется

2025-10-26 в 8:18, admin, рубрики: elt, elt-процессы, etl

Привет, Habr!

Ятимлид достаточно молодой команды разработки и недавно столкнулась с недопониманием у ребят различий между процессами загрузки данных ETL и ELT. Решила разобрать разницу в одной статье, попробовать объяснить где и почему нужно использовать ETL и зачем понадобился ELT. Также в статье попробую ответить на вопрос — какой подход выбрать.

И это моя первая статья на Habr, буду рада поддержке.

Читать полностью »

WAP паттерн в data-engineering

2025-08-16 в 6:15, admin, рубрики: big data, BigData, data engineering, data quality, data warehouse, DataLake, etl, warehouse

В русскоязычной части интернета присутствует много статей по теме паттернов разработки, однако я не нашел никакой информации о паттернах работы с данными.

В данной статье я хочу рассказать о паттерне Write-Audit-Publish, о предпосылках его появления, а также наглядно рассмотреть как он работает.

История зарождения

С момента появления концепции data lake, компании старались собирать как можно данных, иногда не слишком задумываясь об их качестве. Появилось четкое понимание, что данные "когда-нибудь" могут быть использованы. Так, согласно исследованиям market.us Читать полностью »

Как я разработал скрипт для загрузки данных и разгрузил ИТ-отдел

2025-07-21 в 10:44, admin, рубрики: EPM, epm-системы, etl, вебинар, разработка

Максим Бритвин

Старший консультант-разработчик департамента EPM, «КОРУС Консалтинг»

Читать полностью »

История исследования и анализа информации. Архитектура Data Mesh: концептуальные основы

2025-04-24 в 4:15, admin, рубрики: big data, data engineering, data mesh, DDD, etl, smart data

С возникновением первых вычислительных машин предприятия осознали потребность в обработке и анализе информации.

В 1980-е годы они приступили к формированию информационных хранилищ, основанных на реляционных базах данных, которые стали ключевым инструментом для принятия взвешенных решений.

Но по мере того как компании накапливали всё больше разнородных сведений, недостатки реляционных баз данных становились всё более явными.

С началом нового тысячелетия мы вступили в эпоху больших данных.Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «etl»

Топ-10 требований к ИТ-системе бюджетирования

AI и Data engineering: Что реально происходит с профессией?

Почему ваши dbt-тесты врут, или Зачем дата-инженеру статистика

Автостопом по граблям: асинхронное лимитирование запросов в Python

Расширяем функционал Apache NiFi 2.0: руководство к написанию своего процессора

Atomic insert in Clickhouse

ETL & ELT. От перестановки «слагаемых» результат меняется

WAP паттерн в data-engineering

История зарождения

Как я разработал скрипт для загрузки данных и разгрузил ИТ-отдел

Максим Бритвин

История исследования и анализа информации. Архитектура Data Mesh: концептуальные основы