Рубрика «data warehouse»

DWH в 2026: четыре зоны вместо Inmon, Kimball и Data Vault 2.0

2026-05-14 в 10:56, admin, рубрики: apache iceberg, clickhouse, data engineering, data vault, data warehouse, dba, dwh, lakehouse, trino, архитектура данных

Когда инженер слышит «нам нужно хранилище данных», задача редко звучит однозначно. Кто‑то задыхается на боевой OLTP‑базе под аналитической нагрузкой. Кто‑то впервые строит BI и не понимает, с какого края подходить. У кого‑то накопились данные из десятка систем‑источников, и существующих средств уже не хватает.

У всех «хранилище». А правильный технический ответ зависит от условий задачи.

Читать полностью »

WAP паттерн в data-engineering

2025-08-16 в 6:15, admin, рубрики: big data, BigData, data engineering, data quality, data warehouse, DataLake, etl, warehouse

В русскоязычной части интернета присутствует много статей по теме паттернов разработки, однако я не нашел никакой информации о паттернах работы с данными.

В данной статье я хочу рассказать о паттерне Write-Audit-Publish, о предпосылках его появления, а также наглядно рассмотреть как он работает.

История зарождения

С момента появления концепции data lake, компании старались собирать как можно данных, иногда не слишком задумываясь об их качестве. Появилось четкое понимание, что данные "когда-нибудь" могут быть использованы. Так, согласно исследованиям market.us Читать полностью »

Разработка DWH с нуля – особенности архитектуры

2025-08-08 в 5:06, admin, рубрики: BI, Business Intelligence, data warehouse, dwh, архитектура dwh, корпоративное хранилище данных, разработка хранилище данных

Проект по построению DWH с нуля был запущен по инициативе Заказчика в рамках крупной трансформации управленческой отчётности и аналитики. Подход к реализации выбрали классический: многоуровневая архитектура хранилища данных, обеспечивающая масштабируемость и прозрачность ETL-процессов.

Архитектура хранилища данных

Целевое аналитическое хранилище было реализовано с использованием четырёх ключевых слоёв: Staging Layer (STG), Data Warehouse (DWH), Detail Data Store (DDS) и Data Marts (витрины данных). Каждый из этих слоев выполняет свою роль в обработке, трансформации и подаче данных.

Staging Layer (STG)

STG — этоЧитать полностью »

Максимизация производительности ScyllaDB

2025-05-19 в 10:15, admin, рубрики: BigData, cassandra, data warehouse, dwh, IoT, no sql, nosql, scylladb, sql, storage

Здравствуйте!

Меня зовут Александр Андреев, я старший инженер данных. В своей первой статье на "Хабре" я хочу рассказать об оптимизации производительности NoSQL базы данных ScyllaDB.

Введение в ScyllaDB

ScyllaDB — это высокопроизводительная распределённая NoSQL база данных, совместимая с Apache Cassandra на уровне протокола, но предлагающая значительно более высокую пропускную способность и меньшую задержку. В отличие от Cassandra, которая написана на Java, ScyllaDB реализована на C++ с использованием фреймворка Seastar Читать полностью »

Озеро для дата-склада: как мы нырнули в новые методы хранения данных и что из этого вышло

2025-01-27 в 6:15, admin, рубрики: data, data engineering, data lake, data warehouse, dwh, архитектура данных, базы данных, данные, корпоративное хранилище данных, хранилище данных

Привет! Меня зовут Михаил Килинский, я — Senior Developer в проекте Data Warehouse «Лаборатории Касперского». Наша команда строит хранилища данных и разрабатывает ETL- и ELT-процессы, мы пишем на Python, SQL и C# (.NET), а весь код находится в монорепозитории.

Озеро для дата-склада: как мы нырнули в новые методы хранения данных и что из этого вышло - 1

Читать полностью »

Переход от монолитного Data Lake к распределённой Data Mesh

2020-04-04 в 12:19, admin, рубрики: big data, data lake, data mesh, Data Platform, data warehouse, dwh, перевод, хранилища данных

Привет! Представляю вашему вниманию перевод статьи «How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh» автора Zhamak Dehghani (Жамак Дегани)(все изображения взяты из этой же статьи).

Все крупные компании сейчас пытаются строить огромные централизованные хранилища данных. Или же ещё более огромные кластерные Data Lakes (как правило, на хадупе). Но мне не известно ни одного примера успешного построения такой платформы данных. Везде это боль и страдание как для тех, кто строит платформу данных, так и для пользователей. В статье ниже автор (Жамак Дегани) предлагает совершенно новый подход к построению платформы данных. Это архитектура платформы данных четвертого поколения, которая называется Data Mesh. Оригинальная статья на английском весьма объёмна и откровенно тяжело читается. Перевод так же получился немаленьким и текст не очень прост: длинные предложения, суховатая лексика. Я не стал переформулировать мысли автора, дабы сохранить точность формулировок. Но я крайне рекомендую таки продраться через этот непростой текст и ознакомиться со статьёй. Для тех, кто занимается данными, это будет очень полезно и весьма интересно.

Евгений Черный

Немало компаний инвестируют в следующее поколение Data Lake с надеждой упростить доступ к данным в масштабе всей компании и предоставить бизнесу инсайты и возможность принимать качественные решения автоматически. Но текущие подходы к построению платформ данных имеют схожие проблемы, которые не позволяют достигнуть поставленных целей. Чтобы решить эти проблемы нам необходимо отказаться от парадигмы централизованного Data Lake (или его предшественника – хранилища данных). И перейти к парадигме, основанной на современной распределённой архитектуре: рассматривать бизнес-домены как приоритет первого уровня, применять платформенное мышление для создания инфраструктуры с возможностью самообслуживания и воспринимать данные как продукт.

Читать полностью »

Дисциплина, точность, внимание к деталям, часть вторая

2017-05-15 в 11:18, admin, рубрики: Analysis Services, Average of Children, big data, cubes, data mining, data warehouse, MDX, Microsoft SQL Server, olap, sql, ssas, кубы

Введение

В этой статье я продолжу рассказ о своем опыте работы с Microsoft Analysis Services. В дополнение к предыдущей статье, я хочу написать про нестандартные решения, которые были сделаны в последнем проекте. Эти решения более тесно сблизили меня с Microsoft Analysis Services, я стал больше его уважать и делать с его помощью то, что ранее мне казалось невероятным.
Читать полностью »

Как мы построили облачную инфраструктуру обработки данных для кросс-продуктовой аналитики

2017-04-26 в 3:59, admin, рубрики: Amazon Web Services, big data, bigquery, data warehouse, mode, plotly, product analytics, redash, redshift, segment, stitch, Блог компании Skyeng, визуализация данных

Мы в Skyeng очень много внимания уделяем анализу данных. Он позволяет нам правильно планировать работу и распределять ресурсы между различными задачами. Сегодня разработчик аналитики Глеб Сологуб расскажет, как он собрал для нас инфраструктуру сбора и анализа данных по всему нашему зоопарку сервисов и приложений, уложившись в годовой бюджет 12 тыс долларов.

Читать полностью »

Интеграция XML данных — другой путь

2017-03-29 в 15:00, admin, рубрики: big data, data warehouse, olap, sql server, XML, xpath, xslt, Анализ и проектирование систем

В данной статье описывается «нетрадиционная», но достаточно мощная технология обработки XML, позволяющая импортировать любые XML-данные и преобразовывать их структуру эффективно и просто, при этом один и тот же процесс обработки позволяет трансформировать исходные данные любой структуры без какого-либо изменения программного кода.
Читать полностью »

7 ошибок ETL-разработчика

2015-12-16 в 7:04, admin, рубрики: data lineage, data warehouse, dwh, etl, modelling, oracle, sql, Администрирование баз данных, хранение данных

Проекты хранилищ данных уже давно являются частью IT-инфраструктуры большинства крупных предприятий. Процессы ETL являются частью этих проектов, однако разработчики иногда совершают одни и те же ошибки при проектировании и сопровождении этих процессов. Некоторые из этих ошибок описаны в этом посте.
Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «data warehouse»

DWH в 2026: четыре зоны вместо Inmon, Kimball и Data Vault 2.0

WAP паттерн в data-engineering

История зарождения

Разработка DWH с нуля – особенности архитектуры

Архитектура хранилища данных

Максимизация производительности ScyllaDB

Введение в ScyllaDB

Озеро для дата-склада: как мы нырнули в новые методы хранения данных и что из этого вышло

Переход от монолитного Data Lake к распределённой Data Mesh

Дисциплина, точность, внимание к деталям, часть вторая

Введение

Как мы построили облачную инфраструктуру обработки данных для кросс-продуктовой аналитики

Интеграция XML данных — другой путь

7 ошибок ETL-разработчика