Рубрика «хранилища данных» - 11

Анализируя статистику сайта, мы получаем представление о том, что происходит с ним. Результаты мы сопоставляем с другими знаниями о продукте или сервисе и этим улучшаем наш опыт.

Когда анализ первых результатов завершён, прошло осмысление информации и сделаны выводы, начинается следующий этап. Возникают идеи: а что будет, если посмотреть на данные с другой стороны?

На этом этапе есть ограничения инструментов анализа. Это одна из причин, почему мне было недостаточно инструмента Google Analytics, а именно, из-за ограниченной возможности видеть свои данные и манипулировать ими.

Всегда хотелось быстро загрузить базовые данные (мастер-данные), добавить другой уровень агрегации или иначе интерпретировать имеющиеся значения.

Это легко сделать в своём маленьком хранилище на основе файла access.log и для этого достаточно языка SQL.Читать полностью »

Здравствуйте, дорогие друзья.

Сегодня хочу поделиться историей из жизни, как было устроено хранилище DWH в Tele2 до внедрения КХД (EDW). А в следующих статьях рассказать, как внедрялись ETL-инструменты, EDW и BI решения в Tele2.

Поступил я в ИТ подразделение Tele2 в 2012 в отдел по системам отчетности. На тот момент в компании уже было создано хранилище DWH, на котором уже крутилось много процессов по предоставлению отчетности и не только.

Немного по поводу технического стека, который там использовался на тот момент. Для хранилища использовалась Оракловая база объемом 60-100 Тб сервер T4-4 c оперативой под 1 Тб. Туда загружались данные из различных источников. Но основными из них были 4 оракловые биллинговые базы, которые были по сути платформой тарификации. И был отдел ЕРЦ (Единый расчетный центр), который занимался поддержкой этих баз и предоставлением сервисов. Разделение этих баз было по макрорегионам. Причина: слишком большие объемы. Т.е если абонент звонит, скажем, из Московской сим-карты то и расчет стоимости звонка производится в соответствующем биллинге.

Читать полностью »

Утилита Webalizer и инструмент Google Analytics помогали мне много лет получать представление о том, что происходит на веб сайтах. Сейчас я понимаю, что они дают очень мало полезной информации. Имея доступ к своему файлу access.log, разобраться со статистикой очень просто и для реализации достаточно элементарных инструментов, таких как sqlite, html, языка sql и любого скриптового языка программирования.

Источником данных для Webalizer является файл access.log сервера. Так выглядят его столбики и цифры, из которых понятен лишь общий объём трафика:
imageЧитать полностью »

Вы любите из раза в раз повторять рутинные операции? Вот и я нет. Но каждый раз в SQL-клиенте при работе с хранилищем Ростелекома приходилось прописывать все джойны между таблицами ручками. И это притом, что в 90% случаев поля и условия соединения таблиц совпадали от запроса к запросу! Казалось бы, любой SQL-клиент имеет функции автозаполнения, но для хранилищ оно не всегда работает: в них редко заводятся unique constraint и foreign key в целях повышения производительности, а без этого программе не узнать, как между собой связаны сущности и что она может тебе предложить.

Как перестать делать одно и то же - 1

Пройдя через отрицание, гнев, торг, депрессию и приближаясь к принятию, я решил — а почему бы самому не попробовать реализовать автозаполнение с блекджеком и как положено? Я пользуюсь клиентом dbeaver, написанным на java, у него есть комьюнити версия с открытым исходным кодом. Созрел нехитрый план:
Читать полностью »

InterSystems IRIS and transactionСУБД InterSystems IRIS поддерживает любопытные структуры для хранения данных — глобалы. По сути это многоуровневые ключи с различными дополнительными плюшками в виде транзакций, быстрых функций для обхода деревьев данных, блокировок и своего языка ObjectScript.

Подробнее о глобалах в цикле статей «Глобалы — мечи-кладенцы для хранения данных»:

Деревья. Часть 1.
Деревья. Часть 2.
Разреженные массивы. Часть 3.

Мне стало интересно как реализованы транзакции в глобалах, какие там есть особенности. Ведь это совершенно иная структура для хранения данных, чем всем привычные таблицы. Намного более низкоуровневая.
Читать полностью »

(первая часть тут: https://habr.com/ru/post/456446/)

CEPH

Введение

Поскольку сеть является одним из ключевых элементов Ceph, а она в нашей компании немного специфична — расскажем сначала немного о ней.
Тут будет сильно меньше описаний самого Ceph, в основном сетевая инфраструктура. Описываться будут только сервера Ceph-а и некоторые особенности серверов виртуализации Proxmox.

Читать полностью »

Выбор CEPH. Часть 1

У нас было пять стоек, десять оптических свичей, настроенный BGP, пару десятков SSD и куча SAS дисков всех цветов и размеров, а ещё proxmox и желание засунуть всю статику в собственное S3 хранилище. Не то чтобы это всё было нужно для виртуализации, но раз начал использовать opensource — то иди в своём увлечении до конца. Единственное, что меня беспокоило — это BGP. В мире нет никого более беспомощного, безответственного и безнравственного, чем внутренняя маршртутизация по BGP. И я знал, что довольно скоро мы в это окунёмся.

Сeph — от «на коленке» до «production» - 1

Задача стояла банальная — имелся CEPH, работал не очень хорошо. Надо было сделать "хорошо".
Доставшийся мне кластер был разнородным, настроенным на скорую руку и практически не тюнингованным. Он состоял из двух групп разных нод, с одной общей сеткой выполняющей роль как cluster так и public network. Ноды были набиты четырьмя типами дисков — два типа SSD, собранными в два отдельных placement rule и два типа HDD разного размера, собранными в третью группу. Проблема с разными размерами была решена разными весами OSD.

Саму настройку разделили на две части — тюнинг операционной системы и тюнинг самого CEPH и его настроек.

Читать полностью »

Краснодарский провайдер отказался устанавливать оборудование по «закону Яровой» - 1

Маленький интернет-провайдер «Фирма Связь» из города Ейск Краснодарского края отказался выполнять требование Роскомнадзора по закону Яровой и закупить оборудование, которое не прошло сертификацию. Роскомнадзор подал в суд на мятежного провайдера. В Минкомсвязи признали наличие пробела в законодательстве и пообещали устранить «законодательную лакуну».

Директор компании Сергей Субоч объяснил, что в январе 2019 года управление ФСБ по Краснодарскому краю отказалось утвердить компании план внедрения оборудования СОРМ из-за того, что предложенный ей срок превышал год. «После этого местное управление Роскомнадзора начало проверку, а 27 мая подало четыре иска о привлечении компании к административной ответственности, следует из картотеки суда. 6 июня, рассмотрев два протокола, суд поддержал позицию Роскомнадзора, ещё два рассмотрит позднее», — пишет «Коммерсантъ».
Читать полностью »

Доброго дня! Продолжу свою историю сборку «суперкомпьютера в деревне».

Ссылка на 1 часть истории: habr.com/ru/post/454282
Ссылка на 2 часть истории: habr.com/ru/post/454448

Третью часть я начну с выражения искренней благодарности своим друзьям, которые поддерживали меня в трудную минуту, мотивировали, помогали деньгами спонсируя это достаточно дорогое дело на протяжении длительного времени и даже помогали с покупкой комплектующих из-за границы в случаях когда я не мог купить их на прямую сам. Например если фирма торгующая серверными запчастями в США или Канаде просто не слала в Россию. Без их долгой и регулярной помощи мои успехи были бы намного скромнее.
Так-же благодаря их просьбам я решился и завел аккаунт на Youtube, купил старый смартфон Lumia 640 который я использую исключительно как видеокамеру и начал снимать познавательные видео, как про сборку «деревенского суперкомпьютера» так и про другие аспекты и проекты своей деревенской жизни.
Плейлист «Деревенский суперкомпьютер»: www.youtube.com/playlist?list=PL3zeXynsAkrnywl1nXQeHzKNdw09V4D7E
Желающие спойлеров могут ознакомиться, хотя конечно делать это лучше в процессе прочтения моей истории или вовсе после.
Читать полностью »

Доброго времени суток, дорогие Хабровчане!

Хочу продолжить свое повествование о сборке «деревенского суперкомпьютера». И поясню почему он так назван — причина простая. Я сам живу в деревне. И название — легкий троллинг над теми кто кричит в интернете «За МКАД жизни нет!», «Русская деревня спилась и вымирает!» Так вот, где-то это может быть и так, а я буду исключением из правил. Не пью, не курю, делаю вещи которые не всякому «городскому креаклу(с)» по уму и карману. Но вернемся к нашим баранам, точнее — серверу, который в конце первой части статьи уже «подавал признаки жизни».
Плата лежала на столе, я полазил по BIOS настраивая его по своему вкусу, накатал Ubuntu 16.04 Desktop для простоты и решил подключить к «супер-машине» видеокарту. Но под рукой была только GTS 250 с приклеенным здоровенным не родным вентилятором. Которую я и установил в PCI-E 16x слот около кнопки питания.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js