Сообщество Database & Data warehouse приглашает на свой митап, который состоится 26 сентября в офисе Райффайзенбанка в Нагатино
Рубрика «dwh» - 2
DB & DWH MeetUp #5 в Райффайзенбанке
2019-09-24 в 12:38, admin, рубрики: big data, dwh, Exadata, ods, oracle, raiffeisenIT, sas, sql, tableau, Блог компании Райффайзенбанк, конференцииКак в Microsoft SQL Server получать данные из Google Analytics при помощи R
2019-09-05 в 12:27, admin, рубрики: dwh, google analytics, Google API, Microsoft SQL Server, R, sql, sql serverВ этом материале я хочу подробно показать, как можно при помощи R в Microsoft SQL Server реализовать получение данных из Google Analytics (и вообще из любого API).
Благодарности:
Поскольку я ни разу не маркетолог мне требовалась помощь специалиста. Тестовый кабинет и доступ Google Analytics (GA) организовал Алексей Селезнёв , а также давал дельные консультации.
Он профессионально занимается аналитикой в маркетинге. И в качестве благодарности за помощь упоминается здесь телеграмм канал Алексея, где он ведет свою активность.
Задача — у нас есть сервер MS SQL и мы хотим получать данные в DWH по API
Для подключения к Google Analytics (GA) будем использовать пакет googleAnalyticsR.
Данный пакет выбран, для примера в силу своей популярности. Вы можете использовать другой пакет, например: RGoogleAnalytic.
Подходы к решению задачи будут одинаковыми.
Как было устроено хранилище DWH в TELE2
2019-08-11 в 15:54, admin, рубрики: apex, big data, database design, dwh, edw, oracle, oracle application express, Tele2 Россия, архитектура, база дынных, биллинг, биллинговая система, биллинговые системы, теле2, телекоммуникации и связь, хранение данных, хранилища данных, хранилище данныхЗдравствуйте, дорогие друзья.
Сегодня хочу поделиться историей из жизни, как было устроено хранилище DWH в Tele2 до внедрения КХД (EDW). А в следующих статьях рассказать, как внедрялись ETL-инструменты, EDW и BI решения в Tele2.
Поступил я в ИТ подразделение Tele2 в 2012 в отдел по системам отчетности. На тот момент в компании уже было создано хранилище DWH, на котором уже крутилось много процессов по предоставлению отчетности и не только.
Немного по поводу технического стека, который там использовался на тот момент. Для хранилища использовалась Оракловая база объемом 60-100 Тб сервер T4-4 c оперативой под 1 Тб. Туда загружались данные из различных источников. Но основными из них были 4 оракловые биллинговые базы, которые были по сути платформой тарификации. И был отдел ЕРЦ (Единый расчетный центр), который занимался поддержкой этих баз и предоставлением сервисов. Разделение этих баз было по макрорегионам. Причина: слишком большие объемы. Т.е если абонент звонит, скажем, из Московской сим-карты то и расчет стоимости звонка производится в соответствующем биллинге.
Как перестать делать одно и то же
2019-08-01 в 11:02, admin, рубрики: dwh, open source, sql, SQLUtils, Блог компании Ростелеком, команда управления данными ртк, хранилища данныхВы любите из раза в раз повторять рутинные операции? Вот и я нет. Но каждый раз в SQL-клиенте при работе с хранилищем Ростелекома приходилось прописывать все джойны между таблицами ручками. И это притом, что в 90% случаев поля и условия соединения таблиц совпадали от запроса к запросу! Казалось бы, любой SQL-клиент имеет функции автозаполнения, но для хранилищ оно не всегда работает: в них редко заводятся unique constraint и foreign key в целях повышения производительности, а без этого программе не узнать, как между собой связаны сущности и что она может тебе предложить.
Пройдя через отрицание, гнев, торг, депрессию и приближаясь к принятию, я решил — а почему бы самому не попробовать реализовать автозаполнение с блекджеком и как положено? Я пользуюсь клиентом dbeaver, написанным на java, у него есть комьюнити версия с открытым исходным кодом. Созрел нехитрый план:
Читать полностью »
Что было интереснго на DataVizDay в Минске
2018-10-17 в 7:17, admin, рубрики: data mining, dwh, анализ данных, визуализация данных, конференции, конференция, минскВ четверг 4 октября я побывал на конференции DataVizDay в Минске в качестве спикера. Поделюсь самыми интересными идеями и впечатлением от Миснка.
Ключевые идеи:
- 80% ваших усилий будет до BI и визуализации, потому что данные бывают или плохие или очень плохие и в основном вы будете тратить время на подготовку и сбор данных.
2.Тем не менее визуализация создает ценность вашего дата продукта. Без визуализации получается просто куча цифр. - К сожалению очень часто визуализация плохая, используют плохие подходы, типы графиков и гистограмм, перегружают представления деталями. В итоге часто мы видим Kill by powerpoint и обилие данные не добавляет прозрачности в аналитике.
- Эксель продолжает занимать значительную роль в процессах. И часто компании не готовы перейти на что-то продвинутое. Но даже на экселе можно построить много чего интересного, потому что хорошая аналитика скорее начинается с чистоты и подготовки данных, а не с красивых дашбордов.Читать полностью »
1C и ETL
2017-08-03 в 11:50, admin, рубрики: 1c, dwh, etl, Администрирование баз данных, хранилища данных
ETL и 1С. Извлечение данных
Первый взгляд
Если вы, как ETL-специалист столкнулись с необходимостью получать данные из 1С, то это первое, что вы можете увидеть, попытавшись разобраться со структурой БД (это из случае MSSQL, для других СУБД картинка аналогичная):

Бизнес-смысл в наименованиях таблиц и полей отсутствует, внешних ключей нет.
Пару ласковых о самой 1С. Реальные таблицы СУБД в ней скрыты за объектами, которые видит разработчик, который часто не догадывается о реальной структуре базы. Да… И весь код на русском языке. Кроме того, есть перечисления, строковые представления которых с помощью SQL получить практически невозможно. Об этом подробнее здесь.
Есть случаи, когда БД нет (и 1С в файловой версии), но это, разумеется ориентирует вас на интеграцию без использования средств СУБД.
Читать полностью »
Сравнение производительности аналитической СУБД Exasol и Oracle In-Memory Option
2016-12-25 в 22:21, admin, рубрики: big data, dwh, exasol, oracle, oracle database, sql, высокая производительность, сравнение производительности, метки: exasol
Свою предыдущую статью я посвятил тому, как и на сколько можно ускорить аналитические (типовые для OLAP/BI систем) запросы в СУБД Oracle за счёт подключения опции In-Memory. В продолжение этой темы я хочу описать несколько альтернативных СУБД для аналитики и сравнить их производительность. И начать я решил с in-memory RDBMS Exasol.
Для тестов, результаты которых я публикую, выбран TPC-H Benchmark и при желании читатели могут повторить мои тесты.
Читать полностью »
Сравнение аналитических in-memory баз данных
2016-10-11 в 7:57, admin, рубрики: big data, clickhouse, dwh, exasol, greenplum, Hadoop, hana, impala, MemSQL, mysql, postgresql, sapbo, sql, Блог компании Тинькофф Банк
В последние два месяца лета в управлении хранилищ данных (Data Warehouse, DWH) Тинькофф Банка появилась новая тема для кухонных споров.
Всё это время мы проводили масштабное тестирование нескольких in-memory СУБД. Любой разговор с администраторами DWH в это время можно было начать с фразы «Ну как, кто лидирует?», и не прогадать. В ответ люди получали длинную и очень эмоциональную тираду о сложностях тестирования, премудростях общения с доселе неизвестными вендорами и недостатках отдельных испытуемых.
Подробности, результаты и некое подобие выводов из тестирования — под катом.
Читать полностью »
Тестирование хранилищ данных
2016-06-06 в 9:29, admin, рубрики: dwh, Блог компании Тинькофф Банк, тестирование, Тестирование IT-систем, тинькофф банк, хранилища данныхПубликуется от имени IvanovAleksey.

В интернете мало информации по тестированию Data Warehouse.
Можно найти общие требования: полнота данных, качество и т.п.
Но нигде нет описания организации процесса, и какими проверками можно покрыть эти требования.
В этой статье постараюсь рассказать: как мы тестируем Хранилище данных в "Тинькофф Банк".


