Рубрика «etl»
Почему ваши dbt-тесты врут, или Зачем дата-инженеру статистика
2026-02-13 в 8:21, admin, рубрики: data quality, etl, etl-пайплайн, ETL-процессы, качество данных, статистикаПривет! Меня зовут Черняховский Денис, и я Data Engineer. Я достаточно продолжительное время работаю с данными и увлекаюсь математической статистикой. Совсем недавно решил поискать в интернете, как другие опытные дата-инженеры исследуют качество данных при помощи статистики, и обнаружил, что никак… пум-пум-пум. А далее обнаружил, что проблема уходит корнями гораздо глубже, чем может показаться.
В этой статье я постараюсь рассказать:
-
почему дата-инженерам необходимо использовать статистику и почему её не используют
-
проведём тесты на реальных примерах данных
Автостопом по граблям: асинхронное лимитирование запросов в Python
2026-01-05 в 17:46, admin, рубрики: async pattern, asyncio, etl, python, rate_limitingНа днях мне прилетела задача, в которой нужно было вычерпывать данные по HTTP с такими вводными:
-
Есть ограничение по количеству запросов в минуту
-
Объём данных - миллионы записей
-
Один запрос выполняется долго (возвращает много данных)
-
Нужен асинхронный механизм выгрузки
Не включая мозг, я начал накидывать решение...
Грабли №1: async, который работает синхронно
async def fetch_all_pages():
...
while True:
response = await fetch( # ← ошибка
f"/resource?page={page}"
)
...
page += 1
...
Формально:
-
async
-
await
Фактически:
-
один запрос за разЧитать полностью »
Расширяем функционал Apache NiFi 2.0: руководство к написанию своего процессора
2025-11-23 в 16:31, admin, рубрики: apache nifi, big data, etl, javaПривет!
Потоки данных между системами стабильно увеличиваются, и в обозримом будущем эта тенденция вряд ли изменится, что создает постоянную потребность в инструментах для работы с данными.
Apache NiFi — программный продукт с открытым исходным кодом, написанный на языке Java, предназначенный для автоматизации потоков данных между системами. Главная его задача: организовывать ETL‑процессы. На GitHub у Apache NiFi имеется 5.9 тысяч звезд.
Для тех, кто не знает, что такое Apache NiFi советую прочитать отличную статью.
Atomic insert in Clickhouse
2025-11-23 в 8:15, admin, рубрики: atomic, clickhouse, etl, insert, sql, атомарность, витрины данных, кликхаусВ этой статье мы поговорим о том, как реализовать поведение атомарной вставки в ClickHouse. Рассмотрим несколько вариантов, подсветим их сильные и слабые стороны, а также, когда каждый из них применять.
Задача
Мы хотим добиться, чтобы не было случаев, когда мы начали вставку, а пользователь прочитал данные до её завершения и получил неактуальный (неполный) набор данных.
Неатомарная вставка = риск чтения некорректного набора данных.
Сценарии, когда такое может произойти:
-
Удалили партицию и хотели начать вставлять данные взамен удалённой, но пользователь обратился к этому интервалу.
ETL & ELT. От перестановки «слагаемых» результат меняется
2025-10-26 в 8:18, admin, рубрики: elt, elt-процессы, etlПривет, Habr!
Ятимлид достаточно молодой команды разработки и недавно столкнулась с недопониманием у ребят различий между процессами загрузки данных ETL и ELT. Решила разобрать разницу в одной статье, попробовать объяснить где и почему нужно использовать ETL и зачем понадобился ELT. Также в статье попробую ответить на вопрос — какой подход выбрать.
И это моя первая статья на Habr, буду рада поддержке.
WAP паттерн в data-engineering
2025-08-16 в 6:15, admin, рубрики: big data, BigData, data engineering, data quality, data warehouse, DataLake, etl, warehouseВ русскоязычной части интернета присутствует много статей по теме паттернов разработки, однако я не нашел никакой информации о паттернах работы с данными.
В данной статье я хочу рассказать о паттерне Write-Audit-Publish, о предпосылках его появления, а также наглядно рассмотреть как он работает.
История зарождения
С момента появления концепции data lake, компании старались собирать как можно данных, иногда не слишком задумываясь об их качестве. Появилось четкое понимание, что данные "когда-нибудь" могут быть использованы. Так, согласно исследованиям market.usЧитать полностью »
Как я разработал скрипт для загрузки данных и разгрузил ИТ-отдел
2025-07-21 в 10:44, admin, рубрики: EPM, epm-системы, etl, вебинар, разработка
Максим Бритвин
Старший консультант-разработчик департамента EPM, «КОРУС Консалтинг»
История исследования и анализа информации. Архитектура Data Mesh: концептуальные основы
2025-04-24 в 4:15, admin, рубрики: big data, data engineering, data mesh, DDD, etl, smart dataС возникновением первых вычислительных машин предприятия осознали потребность в обработке и анализе информации.
В 1980-е годы они приступили к формированию информационных хранилищ, основанных на реляционных базах данных, которые стали ключевым инструментом для принятия взвешенных решений.
Но по мере того как компании накапливали всё больше разнородных сведений, недостатки реляционных баз данных становились всё более явными.
С началом нового тысячелетия мы вступили в эпоху больших данных.Читать полностью »


