Рубрика «dwh»

Переход от монолитного Data Lake к распределённой Data Mesh

2020-04-04 в 12:19, admin, рубрики: big data, data lake, data mesh, Data Platform, data warehouse, dwh, перевод, хранилища данных

Привет! Представляю вашему вниманию перевод статьи «How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh» автора Zhamak Dehghani (Жамак Дегани)(все изображения взяты из этой же статьи).

Все крупные компании сейчас пытаются строить огромные централизованные хранилища данных. Или же ещё более огромные кластерные Data Lakes (как правило, на хадупе). Но мне не известно ни одного примера успешного построения такой платформы данных. Везде это боль и страдание как для тех, кто строит платформу данных, так и для пользователей. В статье ниже автор (Жамак Дегани) предлагает совершенно новый подход к построению платформы данных. Это архитектура платформы данных четвертого поколения, которая называется Data Mesh. Оригинальная статья на английском весьма объёмна и откровенно тяжело читается. Перевод так же получился немаленьким и текст не очень прост: длинные предложения, суховатая лексика. Я не стал переформулировать мысли автора, дабы сохранить точность формулировок. Но я крайне рекомендую таки продраться через этот непростой текст и ознакомиться со статьёй. Для тех, кто занимается данными, это будет очень полезно и весьма интересно.

Евгений Черный

Немало компаний инвестируют в следующее поколение Data Lake с надеждой упростить доступ к данным в масштабе всей компании и предоставить бизнесу инсайты и возможность принимать качественные решения автоматически. Но текущие подходы к построению платформ данных имеют схожие проблемы, которые не позволяют достигнуть поставленных целей. Чтобы решить эти проблемы нам необходимо отказаться от парадигмы централизованного Data Lake (или его предшественника – хранилища данных). И перейти к парадигме, основанной на современной распределённой архитектуре: рассматривать бизнес-домены как приоритет первого уровня, применять платформенное мышление для создания инфраструктуры с возможностью самообслуживания и воспринимать данные как продукт.

Читать полностью »

DB & DWH MeetUp #5 в Райффайзенбанке

2019-09-24 в 12:38, admin, рубрики: big data, dwh, Exadata, ods, oracle, raiffeisenIT, sas, sql, tableau, Блог компании Райффайзенбанк, конференции

Сообщество Database & Data warehouse приглашает на свой митап, который состоится 26 сентября в офисе Райффайзенбанка в Нагатино

DB & DWH MeetUp #5 в Райффайзенбанке - 1
Читать полностью »

Как в Microsoft SQL Server получать данные из Google Analytics при помощи R

2019-09-05 в 12:27, admin, рубрики: dwh, google analytics, Google API, Microsoft SQL Server, R, sql, sql server

В этом материале я хочу подробно показать, как можно при помощи R в Microsoft SQL Server реализовать получение данных из Google Analytics (и вообще из любого API).

Благодарности:

Поскольку я ни разу не маркетолог мне требовалась помощь специалиста. Тестовый кабинет и доступ Google Analytics (GA) организовал Алексей Селезнёв , а также давал дельные консультации.
Он профессионально занимается аналитикой в маркетинге. И в качестве благодарности за помощь упоминается здесь телеграмм канал Алексея, где он ведет свою активность.

Задача — у нас есть сервер MS SQL и мы хотим получать данные в DWH по API

Для подключения к Google Analytics (GA) будем использовать пакет googleAnalyticsR.

Данный пакет выбран, для примера в силу своей популярности. Вы можете использовать другой пакет, например: RGoogleAnalytic.
Подходы к решению задачи будут одинаковыми.

Читать полностью »

Как было устроено хранилище DWH в TELE2

2019-08-11 в 15:54, admin, рубрики: apex, big data, database design, dwh, edw, oracle, oracle application express, Tele2 Россия, архитектура, база дынных, биллинг, биллинговая система, биллинговые системы, теле2, телекоммуникации и связь, хранение данных, хранилища данных, хранилище данных

Здравствуйте, дорогие друзья.

Сегодня хочу поделиться историей из жизни, как было устроено хранилище DWH в Tele2 до внедрения КХД (EDW). А в следующих статьях рассказать, как внедрялись ETL-инструменты, EDW и BI решения в Tele2.

Поступил я в ИТ подразделение Tele2 в 2012 в отдел по системам отчетности. На тот момент в компании уже было создано хранилище DWH, на котором уже крутилось много процессов по предоставлению отчетности и не только.

Немного по поводу технического стека, который там использовался на тот момент. Для хранилища использовалась Оракловая база объемом 60-100 Тб сервер T4-4 c оперативой под 1 Тб. Туда загружались данные из различных источников. Но основными из них были 4 оракловые биллинговые базы, которые были по сути платформой тарификации. И был отдел ЕРЦ (Единый расчетный центр), который занимался поддержкой этих баз и предоставлением сервисов. Разделение этих баз было по макрорегионам. Причина: слишком большие объемы. Т.е если абонент звонит, скажем, из Московской сим-карты то и расчет стоимости звонка производится в соответствующем биллинге.

Читать полностью »

Как перестать делать одно и то же

2019-08-01 в 11:02, admin, рубрики: dwh, open source, sql, SQLUtils, Блог компании Ростелеком, команда управления данными ртк, хранилища данных

Вы любите из раза в раз повторять рутинные операции? Вот и я нет. Но каждый раз в SQL-клиенте при работе с хранилищем Ростелекома приходилось прописывать все джойны между таблицами ручками. И это притом, что в 90% случаев поля и условия соединения таблиц совпадали от запроса к запросу! Казалось бы, любой SQL-клиент имеет функции автозаполнения, но для хранилищ оно не всегда работает: в них редко заводятся unique constraint и foreign key в целях повышения производительности, а без этого программе не узнать, как между собой связаны сущности и что она может тебе предложить.

Пройдя через отрицание, гнев, торг, депрессию и приближаясь к принятию, я решил — а почему бы самому не попробовать реализовать автозаполнение с блекджеком и как положено? Я пользуюсь клиентом dbeaver, написанным на java, у него есть комьюнити версия с открытым исходным кодом. Созрел нехитрый план:
Читать полностью »

Что было интереснго на DataVizDay в Минске

2018-10-17 в 7:17, admin, рубрики: data mining, dwh, анализ данных, визуализация данных, конференции, конференция, минск

В четверг 4 октября я побывал на конференции DataVizDay в Минске в качестве спикера. Поделюсь самыми интересными идеями и впечатлением от Миснка.

Ключевые идеи:

80% ваших усилий будет до BI и визуализации, потому что данные бывают или плохие или очень плохие и в основном вы будете тратить время на подготовку и сбор данных.
2.Тем не менее визуализация создает ценность вашего дата продукта. Без визуализации получается просто куча цифр.
К сожалению очень часто визуализация плохая, используют плохие подходы, типы графиков и гистограмм, перегружают представления деталями. В итоге часто мы видим Kill by powerpoint и обилие данные не добавляет прозрачности в аналитике.
Эксель продолжает занимать значительную роль в процессах. И часто компании не готовы перейти на что-то продвинутое. Но даже на экселе можно построить много чего интересного, потому что хорошая аналитика скорее начинается с чистоты и подготовки данных, а не с красивых дашбордов.Читать полностью »

Почему Е в аббревиатуре ЕХД — это про бизнес-процессы

2018-07-26 в 16:23, admin, рубрики: dwh, бизнес-процессы, метаданные, управление проектами, хранение данных, хранилище данных

Хранилище данных без Е

Сегодня в любой компании, относящийся к большому и среднему бизнесу, наличие хранилища данных является де-факто корпоративным стандартом. Неважно, в какой индустрии работает компания, без анализа имеющихся данных о клиентах, поставщиках, финансах, невозможно удерживать конкурентное преимущество. С развитием автоматизации и оптимизации на каждом уровне производства товара или услуги, в организации используется все больше и больше ИТ систем, создающих данные — производственные, бухгалтерские, системы планирования, управления персоналом, и другие.

Как же выстроить процесс создания хранилища данных наиболее эффективно с точки зрения глобальной оптимизации ресурсов предприятия, новых и текущих потребностей бизнеса, и почему ведение метаданных — это важно.
Читать полностью »

1C и ETL

2017-08-03 в 11:50, admin, рубрики: 1c, dwh, etl, Администрирование баз данных, хранилища данных

ETL и 1С. Извлечение данных

Первый взгляд

Если вы, как ETL-специалист столкнулись с необходимостью получать данные из 1С, то это первое, что вы можете увидеть, попытавшись разобраться со структурой БД (это из случае MSSQL, для других СУБД картинка аналогичная):

1C и ETL - 2

Бизнес-смысл в наименованиях таблиц и полей отсутствует, внешних ключей нет.

Пару ласковых о самой 1С. Реальные таблицы СУБД в ней скрыты за объектами, которые видит разработчик, который часто не догадывается о реальной структуре базы. Да… И весь код на русском языке. Кроме того, есть перечисления, строковые представления которых с помощью SQL получить практически невозможно. Об этом подробнее здесь.

Есть случаи, когда БД нет (и 1С в файловой версии), но это, разумеется ориентирует вас на интеграцию без использования средств СУБД.
Читать полностью »

Сравнение производительности аналитической СУБД Exasol и Oracle In-Memory Option

2016-12-25 в 22:21, admin, рубрики: big data, dwh, exasol, oracle, oracle database, sql, высокая производительность, сравнение производительности, метки: exasol

Сравнение производительности аналитической СУБД Exasol и Oracle In-Memory Option - 1 Свою предыдущую статью я посвятил тому, как и на сколько можно ускорить аналитические (типовые для OLAP/BI систем) запросы в СУБД Oracle за счёт подключения опции In-Memory. В продолжение этой темы я хочу описать несколько альтернативных СУБД для аналитики и сравнить их производительность. И начать я решил с in-memory RDBMS Exasol.
Для тестов, результаты которых я публикую, выбран TPC-H Benchmark и при желании читатели могут повторить мои тесты.
Читать полностью »

Сравнение аналитических in-memory баз данных

2016-10-11 в 7:57, admin, рубрики: big data, clickhouse, dwh, exasol, greenplum, Hadoop, hana, impala, MemSQL, mysql, postgresql, sapbo, sql, Блог компании Тинькофф Банк

Сравнение аналитических in-memory баз данных - 1

В последние два месяца лета в управлении хранилищ данных (Data Warehouse, DWH) Тинькофф Банка появилась новая тема для кухонных споров.
Всё это время мы проводили масштабное тестирование нескольких in-memory СУБД. Любой разговор с администраторами DWH в это время можно было начать с фразы «Ну как, кто лидирует?», и не прогадать. В ответ люди получали длинную и очень эмоциональную тираду о сложностях тестирования, премудростях общения с доселе неизвестными вендорами и недостатках отдельных испытуемых.
Подробности, результаты и некое подобие выводов из тестирования — под катом.
Читать полностью »

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «dwh»

Переход от монолитного Data Lake к распределённой Data Mesh

DB & DWH MeetUp #5 в Райффайзенбанке

Как в Microsoft SQL Server получать данные из Google Analytics при помощи R

Задача — у нас есть сервер MS SQL и мы хотим получать данные в DWH по API

Как было устроено хранилище DWH в TELE2

Как перестать делать одно и то же

Что было интереснго на DataVizDay в Минске

Почему Е в аббревиатуре ЕХД — это про бизнес-процессы

Хранилище данных без Е

1C и ETL

ETL и 1С. Извлечение данных

Первый взгляд

Сравнение производительности аналитической СУБД Exasol и Oracle In-Memory Option

Сравнение аналитических in-memory баз данных

Архив

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «dwh»

Задача — у нас есть сервер MS SQL и мы хотим получать данные в DWH по API

Хранилище данных без Е

ETL и 1С. Извлечение данных

Первый взгляд

Новости

Актуальные темы

Архив