Рубрика «dwh»

У абонента положительный баланс, а услуга не работает: как DWH помог найти причину

2026-06-07 в 12:43, admin, рубрики: bi-аналитика, dwh, sql, биллинг, интеграции, продуктовая аналитика, телеком, управление по данным

Личный кейс из телекома: как мы сопоставляли биллинг, 1С, адреса, услуги и партнерскую платформу, чтобы найти, где нарушается синхронизация

Когда говорят про DWH, чаще всего обсуждают управленческую отчетность, BI-дашборды, витрины данных и красивые графики для руководителей.

Что такое DWH

DWH — единая база, в которой собраны и хранятся все значимые данные компании, аккумулированные из разных источников.

Читать полностью »

DWH в 2026: четыре зоны вместо Inmon, Kimball и Data Vault 2.0

2026-05-14 в 10:56, admin, рубрики: apache iceberg, clickhouse, data engineering, data vault, data warehouse, dba, dwh, lakehouse, trino, архитектура данных

Когда инженер слышит «нам нужно хранилище данных», задача редко звучит однозначно. Кто‑то задыхается на боевой OLTP‑базе под аналитической нагрузкой. Кто‑то впервые строит BI и не понимает, с какого края подходить. У кого‑то накопились данные из десятка систем‑источников, и существующих средств уже не хватает.

У всех «хранилище». А правильный технический ответ зависит от условий задачи.

Читать полностью »

Разработка DWH для начинающих

2026-03-17 в 11:15, admin, рубрики: Core слой, Data Marts слой, dwh, ETL ELT процессы, Standing слой, Архитектура хранилищ, модели данных, Разработка DWH, Слои данных, хранилища данных

Что такое хранилище данных и как оно устроено?

Ты умеешь писать запросы в PostgreSQL и крутишь Python-скрипты. Но как работают с данными в Netflix или Ozon? Там не обойтись без хранилищ данных - про них и поговорим.

Представь, что ты оформляешь заказ в интернет-магазине, система должна мгновенно уточнить наличие товара, провести оплату и оформить заказ. Такие операции выполняются в OLTP-системах, они предназначены для работы с данными "здесь и сейчас".

Но что происходит с этими данными дальше?

Читать полностью »

Вы строите Lakehouse, а сторадж строит вам проблемы. Что делать?

2025-12-28 в 14:17, admin, рубрики: ceph, dwh, lakehouse, s3

Всем привет! Меня зовут Дмитрий Листвин, я занимаюсь аналитическим хранилищем данных в Авито.

Эта статья — третья часть серии про миграцию аналитической платформы Авито из классического DWH в Lakehouse. В первой статье мы разобрали предпосылки миграции и первые шаги, а во второй — почему замена движка оказалась лишь началом и какую экосистему пришлось построить вокруг Trino.

Читать полностью »

Разработка DWH с нуля – особенности архитектуры

2025-08-08 в 5:06, admin, рубрики: BI, Business Intelligence, data warehouse, dwh, архитектура dwh, корпоративное хранилище данных, разработка хранилище данных

Проект по построению DWH с нуля был запущен по инициативе Заказчика в рамках крупной трансформации управленческой отчётности и аналитики. Подход к реализации выбрали классический: многоуровневая архитектура хранилища данных, обеспечивающая масштабируемость и прозрачность ETL-процессов.

Архитектура хранилища данных

Целевое аналитическое хранилище было реализовано с использованием четырёх ключевых слоёв: Staging Layer (STG), Data Warehouse (DWH), Detail Data Store (DDS) и Data Marts (витрины данных). Каждый из этих слоев выполняет свою роль в обработке, трансформации и подаче данных.

Staging Layer (STG)

STG — этоЧитать полностью »

Об индексах на столбцах с низкой кардинальностью

2025-08-02 в 20:45, admin, рубрики: db, dwh, index, performance, postgres

Об индексах на столбцах с низкой кардинальностью

Ранее среди коллег по СУБД бытовало мнение, что не стоит использовать B-tree индексы на столбцах с малым количеством уникальных значений. Считалось, что планировщик почти никогда не будет использовать такие индексы, поскольку дешевле последовательно прочитать всю таблицу, чем использовать случайное чтение (Disk I/O) на индексе, а затем переходить по указанному TID (Tuple ID) в таблицу. В случае, если необходимо прочитать сначала большую долю индекса, а потом большую долю таблицы, то дешевле сразу прочитать таблицу, чем выполнять двойную работу.
Читать полностью »

DSL для битемпоральной шестой нормальной формы с UUIDv7

2025-08-02 в 10:00, admin, рубрики: 6NF, AI, Anchor, dsl, dwh, EBNF, llm, normal form, sql, Vault

Хранилища данных широко используются в финансовой отрасли

Шестая нормальная форма (6NF) играет ключевую роль вЧитать полностью »

Максимизация производительности ScyllaDB

2025-05-19 в 10:15, admin, рубрики: BigData, cassandra, data warehouse, dwh, IoT, no sql, nosql, scylladb, sql, storage

Здравствуйте!

Меня зовут Александр Андреев, я старший инженер данных. В своей первой статье на "Хабре" я хочу рассказать об оптимизации производительности NoSQL базы данных ScyllaDB.

Введение в ScyllaDB

ScyllaDB — это высокопроизводительная распределённая NoSQL база данных, совместимая с Apache Cassandra на уровне протокола, но предлагающая значительно более высокую пропускную способность и меньшую задержку. В отличие от Cassandra, которая написана на Java, ScyllaDB реализована на C++ с использованием фреймворка Seastar Читать полностью »

Трансформация платформы данных: от пары кубов до хранилища > 30 Тб и 1000 ETL-процессов

2025-02-19 в 13:35, admin, рубрики: dwh, платформа данных

Привет! Меня зовут Наталья Горлова, я архитектор данных. Отвечала за систему хранения и обработки данных в CDEK.

Читать полностью »

Озеро для дата-склада: как мы нырнули в новые методы хранения данных и что из этого вышло

2025-01-27 в 6:15, admin, рубрики: data, data engineering, data lake, data warehouse, dwh, архитектура данных, базы данных, данные, корпоративное хранилище данных, хранилище данных

Привет! Меня зовут Михаил Килинский, я — Senior Developer в проекте Data Warehouse «Лаборатории Касперского». Наша команда строит хранилища данных и разрабатывает ETL- и ELT-процессы, мы пишем на Python, SQL и C# (.NET), а весь код находится в монорепозитории.

Озеро для дата-склада: как мы нырнули в новые методы хранения данных и что из этого вышло - 1

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «dwh»

У абонента положительный баланс, а услуга не работает: как DWH помог найти причину

DWH в 2026: четыре зоны вместо Inmon, Kimball и Data Vault 2.0

Разработка DWH для начинающих

Что такое хранилище данных и как оно устроено?

Вы строите Lakehouse, а сторадж строит вам проблемы. Что делать?

Разработка DWH с нуля – особенности архитектуры

Архитектура хранилища данных

Об индексах на столбцах с низкой кардинальностью

Об индексах на столбцах с низкой кардинальностью

DSL для битемпоральной шестой нормальной формы с UUIDv7

Максимизация производительности ScyllaDB

Введение в ScyllaDB

Трансформация платформы данных: от пары кубов до хранилища > 30 Тб и 1000 ETL-процессов

Озеро для дата-склада: как мы нырнули в новые методы хранения данных и что из этого вышло