Рубрика «хранилища данных» - 11

Мониторинг ETL-процессов в маленьком хранилище данных

2019-08-30 в 15:49, admin, рубрики: etl, ETL-процессы, monitoring, sql, sqlite, хранилища данных, хранилище данных

Многие используют специализированные инструменты для создания процедур извлечения, трансформации и загрузки данных в реляционные базы данных. Процесс работы инструментов логируется, ошибки фиксируются.

В случае ошибки в логе содержится информация о том, что инструменту не удалось выполнить задачу и какие модули (часто это java) где остановились. В последних строках можно найти ошибку базы данных, например, нарушение уникального ключа таблицы.

Чтобы ответить на вопрос, какую роль играет информация об ошибках ETL, я классифицировал все проблемы, произошедшие за последние два года в немаленьком хранилище.

Читать полностью »

Плагины томов для хранилищ в Kubernetes: от Flexvolume к CSI

2019-08-30 в 6:26, admin, рубрики: Блог компании Флант, системное администрирование, хранилища данных

Плагины томов для хранилищ в Kubernetes: от Flexvolume к CSI - 1

Во времена, когда Kubernetes был ещё v1.0.0, существовали плагины для томов (volume plugins). Нужны они были для подключения к Kubernetes систем для хранения персистентных (постоянных) данных контейнеров. Количество их было невелико, а в числе первых — такие провайдеры хранилищ, как GCE PD, Ceph, AWS EBS и другие.

Поставлялись плагины вместе с Kubernetes, за что и получили своё название — in-tree. Однако многим существующего набора таких плагинов оказалось недостаточным. Умельцы добавляли простенькие плагины в ядро Kubernetes при помощи патчей, после чего собирали свой собственный Kubernetes и ставили его на свои серверы. Но со временем разработчики Kubernetes поняли, что рыбой проблему не решить. Людям нужна удочка. И в релизе Kubernetes v1.2.0 она появилась…Читать полностью »

Как заглянуть в глаза Кассандре и не потерять при этом данные, стабильность и веру в NoSQL

2019-08-28 в 15:07, admin, рубрики: apache cassandra, Apache Spark, C, nosql, nosql базы данных, Администрирование баз данных, архитектура it решения, хранилища данных

Говорят, в жизни все стоит попробовать хотя бы раз. И если вы привыкли работать с реляционными СУБД, то познакомиться на практике с NoSQL стоит в первую очередь хотя бы для общего развития. Сейчас в силу бурного развития этой технологии очень много противоречивых мнений и горячих споров на эту тему, что особенно подогревает интерес.
Если вникнуть в суть всех этих споров, то можно увидеть, что они возникают из-за неправильного подхода. Те, кто использует NoSQL базы именно там, где они нужны, довольны и получают от данного решения все его плюсы. А экспериментаторы, уповающие на данную технологию как панацею там, где она не применима вовсе, испытывают разочарование, потеряв сильные стороны реляционных баз без приобретения весомых выгод.

Я расскажу про наш опыт внедрения решения, основанного на СУБД Cassandra: с чем пришлось столкнуться, как выкручивались из трудных ситуаций, удалось ли нам получить выигрыш от использования NoSQL и где пришлось вложить дополнительные усилия/средства.
Исходная задача — это построение системы, записывающей звонки в некое хранилище.

Принцип действия системы следующий. На вход приходят файлы с определенной структурой, описывающей структуру вызова. Затем приложение обеспечивает сохранение этой структуры в соответствующие колонки. В дальнейшем сохраненные вызовы используются – для отображения информации по потреблению трафика для абонентов (начисления, звонки, история баланса).

Почему выбрали Кассандру вполне понятно — она пишет как пулемет, легко масштабируема, отказоустойчива.

Читать полностью »

Telegram в качестве хранилища данных для IT проектов

2019-08-24 в 11:57, admin, рубрики: Google Sheets, python, sql, sqlite, sqllite, telegram, telegram bots, базы данных, кликер, телеграмм боты, хранилища данных

Добрый день, сегодня я хотел бы поделится с Вами проблемами и их необычными решениями, которые встретились при написании небольших IT проектов. Сразу скажу, что статья для тех, кто хоть немного разбирается в разработке телеграмм ботов, баз данных, SQL и в языке программировании python.

Весь проект выложен на github, ссылка будет в конце статьи.

Основная проблема

Изначально я хотел для себя написать простенького телеграмм бота счетчика калорий, который получает число от пользователя и возвращает сколько калорий осталось до нормы на день. То есть нужно хранить грубо говоря пару переменных для каждого пользователя.
Читать полностью »

Утечка данных системы BioStar 2 выдала личную информацию миллиона человек

2019-08-15 в 12:57, admin, рубрики: защита данных, информационная безопасность, утечка информации, хранение данных, хранилища данных

Утечка данных системы BioStar 2 выдала личную информацию миллиона человек - 1

Компания vpnMentor опубликовала сообщение об обнаружении в открытом доступе базы данных, которая содержала почти 28 миллионов записей, включая пароли, фото, данные мобильных устройств и личную информацию пользователей биометрической системы Biostar 2. Кроме того, в базе данных находились отсканированные отпечатки пальцев около миллиона человек.

Biostar 2 на сегодня насчитывает около полутора миллионов установок. Система интегрирована в платформу AEOS, с которой работает более 5,7 тысяч предприятий в 83 странах, среди которых США, Великобритания, Индонезия, ОАЭ, Индия и Шри-Ланка. Список организаций включает в себя как коммерческие предприятия, так и государственные учреждения, например, полицейские участки и даже Скотланд-Ярд.
Читать полностью »

Больше статистики сайта в своём маленьком хранилище

2019-08-13 в 18:14, admin, рубрики: big data analytics, sql, sqlite, веб-аналитика, хранилища данных, хранилище данных

Анализируя статистику сайта, мы получаем представление о том, что происходит с ним. Результаты мы сопоставляем с другими знаниями о продукте или сервисе и этим улучшаем наш опыт.

Когда анализ первых результатов завершён, прошло осмысление информации и сделаны выводы, начинается следующий этап. Возникают идеи: а что будет, если посмотреть на данные с другой стороны?

На этом этапе есть ограничения инструментов анализа. Это одна из причин, почему мне было недостаточно инструмента Google Analytics, а именно, из-за ограниченной возможности видеть свои данные и манипулировать ими.

Всегда хотелось быстро загрузить базовые данные (мастер-данные), добавить другой уровень агрегации или иначе интерпретировать имеющиеся значения.

Это легко сделать в своём маленьком хранилище на основе файла access.log и для этого достаточно языка SQL.Читать полностью »

Как было устроено хранилище DWH в TELE2

2019-08-11 в 15:54, admin, рубрики: apex, big data, database design, dwh, edw, oracle, oracle application express, Tele2 Россия, архитектура, база дынных, биллинг, биллинговая система, биллинговые системы, теле2, телекоммуникации и связь, хранение данных, хранилища данных, хранилище данных

Здравствуйте, дорогие друзья.

Сегодня хочу поделиться историей из жизни, как было устроено хранилище DWH в Tele2 до внедрения КХД (EDW). А в следующих статьях рассказать, как внедрялись ETL-инструменты, EDW и BI решения в Tele2.

Поступил я в ИТ подразделение Tele2 в 2012 в отдел по системам отчетности. На тот момент в компании уже было создано хранилище DWH, на котором уже крутилось много процессов по предоставлению отчетности и не только.

Немного по поводу технического стека, который там использовался на тот момент. Для хранилища использовалась Оракловая база объемом 60-100 Тб сервер T4-4 c оперативой под 1 Тб. Туда загружались данные из различных источников. Но основными из них были 4 оракловые биллинговые базы, которые были по сути платформой тарификации. И был отдел ЕРЦ (Единый расчетный центр), который занимался поддержкой этих баз и предоставлением сервисов. Разделение этих баз было по макрорегионам. Причина: слишком большие объемы. Т.е если абонент звонит, скажем, из Московской сим-карты то и расчет стоимости звонка производится в соответствующем биллинге.

Читать полностью »

Статистика сайта и своё маленькое хранилище

2019-08-02 в 22:02, admin, рубрики: sql, sqlite, веб-аналитика, хранилища данных, хранилище данных

Утилита Webalizer и инструмент Google Analytics помогали мне много лет получать представление о том, что происходит на веб сайтах. Сейчас я понимаю, что они дают очень мало полезной информации. Имея доступ к своему файлу access.log, разобраться со статистикой очень просто и для реализации достаточно элементарных инструментов, таких как sqlite, html, языка sql и любого скриптового языка программирования.

Источником данных для Webalizer является файл access.log сервера. Так выглядят его столбики и цифры, из которых понятен лишь общий объём трафика:
Читать полностью »

Как перестать делать одно и то же

2019-08-01 в 11:02, admin, рубрики: dwh, open source, sql, SQLUtils, Блог компании Ростелеком, команда управления данными ртк, хранилища данных

Вы любите из раза в раз повторять рутинные операции? Вот и я нет. Но каждый раз в SQL-клиенте при работе с хранилищем Ростелекома приходилось прописывать все джойны между таблицами ручками. И это притом, что в 90% случаев поля и условия соединения таблиц совпадали от запроса к запросу! Казалось бы, любой SQL-клиент имеет функции автозаполнения, но для хранилищ оно не всегда работает: в них редко заводятся unique constraint и foreign key в целях повышения производительности, а без этого программе не узнать, как между собой связаны сущности и что она может тебе предложить.

Пройдя через отрицание, гнев, торг, депрессию и приближаясь к принятию, я решил — а почему бы самому не попробовать реализовать автозаполнение с блекджеком и как положено? Я пользуюсь клиентом dbeaver, написанным на java, у него есть комьюнити версия с открытым исходным кодом. Созрел нехитрый план:
Читать полностью »

Транзакции в глобалах InterSystems IRIS

2019-07-29 в 15:45, admin, рубрики: acid, intersystems iris, nosql, высокая производительность, глобалы, транзакции, хранение данных, хранилища данных

InterSystems IRIS and transaction СУБД InterSystems IRIS поддерживает любопытные структуры для хранения данных — глобалы. По сути это многоуровневые ключи с различными дополнительными плюшками в виде транзакций, быстрых функций для обхода деревьев данных, блокировок и своего языка ObjectScript.

Подробнее о глобалах в цикле статей «Глобалы — мечи-кладенцы для хранения данных»:

Деревья. Часть 1.
Деревья. Часть 2.
Разреженные массивы. Часть 3.

Мне стало интересно как реализованы транзакции в глобалах, какие там есть особенности. Ведь это совершенно иная структура для хранения данных, чем всем привычные таблицы. Намного более низкоуровневая.
Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «хранилища данных» - 11

Мониторинг ETL-процессов в маленьком хранилище данных

Плагины томов для хранилищ в Kubernetes: от Flexvolume к CSI

Как заглянуть в глаза Кассандре и не потерять при этом данные, стабильность и веру в NoSQL

Telegram в качестве хранилища данных для IT проектов

Основная проблема

Утечка данных системы BioStar 2 выдала личную информацию миллиона человек

Больше статистики сайта в своём маленьком хранилище

Как было устроено хранилище DWH в TELE2

Статистика сайта и своё маленькое хранилище

Как перестать делать одно и то же

Транзакции в глобалах InterSystems IRIS