Рубрика «dwh»

Когда инженер слышит «нам нужно хранилище данных», задача редко звучит однозначно. Кто‑то задыхается на боевой OLTP‑базе под аналитической нагрузкой. Кто‑то впервые строит BI и не понимает, с какого края подходить. У кого‑то накопились данные из десятка систем‑источников, и существующих средств уже не хватает.

У всех «хранилище». А правильный технический ответ зависит от условий задачи.

Читать полностью »

Что такое хранилище данных и как оно устроено?

Ты умеешь писать запросы в PostgreSQL и крутишь Python-скрипты. Но как работают с данными в Netflix или Ozon? Там не обойтись без хранилищ данных - про них и поговорим.

Представь, что ты оформляешь заказ в интернет-магазине, система должна мгновенно уточнить наличие товара, провести оплату и оформить заказ. Такие операции выполняются в OLTP-системах, они предназначены для работы с данными "здесь и сейчас".

Но что происходит с этими данными дальше?

Читать полностью »

Всем привет! Меня зовут Дмитрий Листвин, я занимаюсь аналитическим хранилищем данных в Авито.

Эта статья — третья часть серии про миграцию аналитической платформы Авито из классического DWH в Lakehouse. В первой статье мы разобрали предпосылки миграции и первые шаги, а во второй — почему замена движка оказалась лишь началом и какую экосистему пришлось построить вокруг Trino.

Читать полностью »

Проект по построению DWH с нуля был запущен по инициативе Заказчика в рамках крупной трансформации управленческой отчётности и аналитики. Подход к реализации выбрали классический: многоуровневая архитектура хранилища данных, обеспечивающая масштабируемость и прозрачность ETL-процессов.

Архитектура хранилища данных 

Целевое аналитическое хранилище было реализовано с использованием четырёх ключевых слоёв: Staging Layer (STG), Data Warehouse (DWH), Detail Data Store (DDS) и Data Marts (витрины данных). Каждый из этих слоев выполняет свою роль в обработке, трансформации и подаче данных.

Staging Layer (STG) 

STG — этоЧитать полностью »

Об индексах на столбцах с низкой кардинальностью

Ранее среди коллег по СУБД бытовало мнение, что не стоит использовать B-tree индексы на столбцах с малым количеством уникальных значений. Считалось, что планировщик почти никогда не будет использовать такие индексы, поскольку дешевле последовательно прочитать всю таблицу, чем использовать случайное чтение (Disk I/O) на индексе, а затем переходить по указанному TID (Tuple ID) в таблицу. В случае, если необходимо прочитать сначала большую долю индекса, а потом большую долю таблицы, то дешевле сразу прочитать таблицу, чем выполнять двойную работу.
Читать полностью »

Хранилища данных широко используются в финансовой отрасли

Хранилища данных широко используются в финансовой отрасли

Шестая нормальная форма (6NF) играет ключевую роль вЧитать полностью »

Здравствуйте!

Меня зовут Александр Андреев, я старший инженер данных. В своей первой статье на "Хабре" я хочу рассказать об оптимизации производительности NoSQL базы данных ScyllaDB.

Введение в ScyllaDB

ScyllaDB — это высокопроизводительная распределённая NoSQL база данных, совместимая с Apache Cassandra на уровне протокола, но предлагающая значительно более высокую пропускную способность и меньшую задержку. В отличие от Cassandra, которая написана на Java, ScyllaDB реализована на C++ с использованием фреймворка SeastarЧитать полностью »

Трансформация платформы данных: от пары кубов до хранилища > 30 Тб и 1000 ETL-процессов - 1

Привет! Меня зовут Наталья Горлова, я архитектор данных. Отвечала за систему хранения и обработки данных в CDEK.

Читать полностью »

Привет! Меня зовут Михаил Килинский, я — Senior Developer в проекте Data Warehouse «Лаборатории Касперского». Наша команда строит хранилища данных и разрабатывает ETL- и ELT-процессы, мы пишем на Python, SQL и C# (.NET), а весь код находится в монорепозитории.

Озеро для дата-склада: как мы нырнули в новые методы хранения данных и что из этого вышло - 1

Читать полностью »

Меня зовут Константин Бражников, я заместитель директора департамента развития клинических и образовательных проектов в Сеченовском Университете. Сегодня это исследовательский медицинский университет мирового уровня, и у него три направления деятельности: наука, образование и медицинская практика.

В структуре университета работает пять университетских клинических больниц, где ежегодно проходят лечение около 500 000 пациентов. Накопленная статистика по клиническим случаям — один из источников для научных работ наших сотрудников.

В прошлом году мы уже кратко Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js