Рубрика «Администрирование баз данных» - 7

Аварии как опыт #1. Как сломать два кластера ClickHouse, не уточнив один нюанс

2020-12-30 в 9:29, admin, рубрики: clickhouse, devops, zookeeper, Администрирование баз данных, Блог компании Флант, системное администрирование

Про некоторые свои failure stories мы уже писали и раньше Читать полностью »

Как научиться проектировать реляционные базы данных за полчаса

2020-12-30 в 4:12, admin, рубрики: Администрирование баз данных, базы данных, внешний ключ, реляционная модель данных, уникальный ключ

Как научиться проектировать реляционные базы данных за полчаса - 1

Автоматизация сопровождает нас повсюду и является спутником и признаком прогресса, снимая с человека необходимость выполнения рутинных действий и принятия рутинных решений. Но для принятия решений о будущем необходима информация о прошлом, поэтому автоматизация неизбежно связана с необходимостью накапливать, хранить и обрабатывать данные, чем и занимаются базы данных и системы управления базами данных. Объём данных не уменьшается, а только увеличивается, поэтому я всегда говорю своим студентам: ~~я научу вас хаскелю, но это сломает вам жизнь и не поможет найти работу~~ базы данных – это хлеб программиста, у разработчика баз данных работа будет всегда, учитесь ~~ораклу~~ базам данных – и хлеб с маслом и икрой вам обеспечен. Это я так, как обычно, полемически заостряюсь для мотивации, но совсем чуть-чуть.
Читать полностью »

Как мы внедряли распределенный кеш на Tarantool в одной АБС

2020-12-17 в 10:23, admin, рубрики: tarantool, Администрирование баз данных, Анализ и проектирование систем, Блог компании Mail.Ru Group, высокая производительность, распределенный кеш

Разработка любого достаточно серьезного софта, будь то калькулятор матриц или ИИ беспилотного автомобиля, — это всегда какая-то своя предметная область, определенные технологии, алгоритмы и структуры данных, архитектура кода, процесс разработки и еще много разных умных терминов из мира IT.

В этой статье представлено одно из решений в мире высокой производительности и распределенных систем. Под катом вы найдёте описание всего лишь небольшого ряда задач и проблем, с которыми мы столкнулись, а также некоторые интересные алгоритмы, подходы к построению архитектуры системы, методы оптимизации запросов, ну и немного о процессе разработки и тестирования решения на базе Tarantool — платформы in-memory вычислений с гибкой схемой данных для эффективного создания высоконагруженных приложений.
Читать полностью »

Обзор операторов PostgreSQL для Kubernetes. Часть 2: дополнения и итоговое сравнение

2020-11-13 в 6:30, admin, рубрики: devops, kubernetes, kubernetes operator, postgresql, zalando, Администрирование баз данных, Блог компании Флант, Флант

Обзор операторов PostgreSQL для Kubernetes. Часть 2: дополнения и итоговое сравнение - 1

На прошлую статью, где мы рассмотрели три оператора PostgreSQL для Kubernetes (Stolon, Crunchy Data и Zalando), поделились своим выбором и опытом эксплуатации, — поступила отличная обратная связь от сообщества*.

Продолжая эту тему, мы добавили в обзор два других решения, на которые нам указали в комментариях: StackGres и KubeDB, — и сделали сводную таблицу сравнения. Также за время эксплуатации оператора от Zalando у нас появились новые интересные кейсы — спешим поделиться и ими.Читать полностью »

Неожиданное влияние текстов среднего размера на производительность PostgreSQL

2020-10-29 в 9:15, admin, рубрики: postgresql, Администрирование баз данных, Блог компании RUVDS.com, разработка

В схеме любой базы данных, наверняка, будет множество текстовых полей. Я, для целей этой статьи, разделил текстовые поля на три категории:

Маленькие тексты. Имена и фамилии людей, заголовки страниц, имена пользователей, адреса электронной почты и прочее подобное. Обычно на размер таких полей накладываются определённые ограничения, довольно сильные. Возможно, это даже не поля типа text, а поля типа varchar(n).
Большие тексты. Это, например, содержимое публикаций в блогах, тексты статей, HTML-код. Такие данные представляют собой большие фрагменты текста неограниченной длины, хранящиеся в базе данных.
Тексты среднего размера. Это — описания, комментарии, отзывы о товарах, данные о трассировке стека и так далее. В сущности это — любые текстовые поля, размер которых находится между размерами «маленьких» и «больших» текстов. Обычно размер таких полей не ограничен, но их содержимое, по естественным причинам, меньше, чем содержимое полей категории «большие тексты».

В этом материале я хочу рассказать о неожиданном влиянии текстов среднего размера на производительность запросов в PostgreSQL. В частности, мы поговорим о TOAST (The Oversized-Attribute Storage Technique, Техника хранения больших атрибутов)
Читать полностью »

Наш опыт с графовой базой данных Dgraph в Kubernetes

2020-10-28 в 8:34, admin, рубрики: devops, Dgraph, graphql, kubernetes, Администрирование баз данных, Блог компании Флант

Наш опыт с графовой базой данных Dgraph в Kubernetes - 1

Недавно перед нами встала задача развернуть Dgraph в кластере Kubernetes. В этой статье я поделюсь полученным опытом: с чем мы столкнулись во время деплоя и последующего использования этого приложения в различных окружениях, от dev до production.

Что вообще такое Dgraph? Это горизонтально масштабируемая графовая (GraphQL) база данных с открытым кодом, созданная в стартапе Dgraph Labs. Краткое сравнение её основных возможностей с другими подобными решениями приведено здесь. В целом же не буду подробно останавливаться на описании Dgraph, т.к. на хабре уже была подробная статья о причинах появления проекта и особенностях реализации. Для желающих начать практическое знакомство с Dgraph также рекомендую официальную документацию.Читать полностью »

Тестируем играючи: мастер-мастер репликация в Tarantool

2020-10-21 в 12:55, admin, рубрики: Lua, master-master replication, tarantool, Администрирование баз данных, Блог компании Mail.Ru Group, высокая производительность, хранение данных

Тестируем играючи: мастер-мастер репликация в Tarantool - 1

В качестве примера мастер-мастер кластера Tarantool я предлагаю сделать небольшую текстовую мультиплеер-игру, где каждый участник стремится набрать большее число очков.

Каждый игрок будет некоторым узлом, который меняет данные в игровом мире. Эти данные реплицируются между узлами. Таким образом, репликация Tarantool будет являться своего рода транспортом для игрового процесса.

Читать полностью »

Знакомство с Debezium — CDC для Apache Kafka

2020-10-15 в 8:37, admin, рубрики: CDC, Debezium, mongodb, postgresql, Администрирование баз данных, Блог компании Флант, системное администрирование, Системы обмена сообщениями

Знакомство с Debezium — CDC для Apache Kafka - 1

В своей работе я часто сталкиваюсь с новыми техническими решениями/программными продуктами, информации о которых в русскоязычном интернете довольно мало. Этой статьей постараюсь восполнить один такой пробел примером из своей недавней практики, когда потребовалось настроить отправку CDC-событий из двух популярных СУБД (PostgreSQL и MongoDB) в кластер Kafka при помощи Debezium. Надеюсь, эта обзорная статья, появившаяся по итогам проделанной работы, окажется полезной и другим.

Что за Debezium и вообще CDC?

Debezium — представитель категории программного обеспечения CDC (Capture Data Change), а если точнее — это набор коннекторов для различных СУБД, совместимых с фреймворком Apache Kafka Connect. Читать полностью »

Восемь интересных возможностей PostgreSQL, о которых вы, возможно, не знали

2020-10-13 в 16:00, admin, рубрики: Booleans can stand alone, Comparing a selection of columns, Convert column data types for free, Custom config parameters, Hardcoded tables, mysql, postgresql, sql, Tables are types, Whole-row references, Администрирование баз данных, Блог компании OTUS. Онлайн-образование

Привет! Приглашаем на бесплатный Demo-урок «Параллельный кластер CockroachDB», который пройдёт в рамках курса «PostgreSQL». Также публикуем перевод статьи Тома Брауна — Principal Systems Engineer at EnterpriseDB.

В этой статье рассмотрим несколько полезных советов по работе с PostgreSQL:

Ссылка на всю строку целиком
Сравнение нескольких столбцов
Общие табличные выражения
Пользовательские параметры конфигурации
Сравнение логических значений без "равно"
Изменение типа столбца без лишних затрат
Читать полностью »

PostgreSQL Antipatterns: убираем медленные и ненужные сортировки

2020-10-07 в 16:00, admin, рубрики: distinct, postgresql, sql, sql tips and tricks, union, Администрирование баз данных, Блог компании Тензор, высокая производительность, сортировка

«Просто так» результат SQL-запроса возвращает записи в том порядке, который наиболее удобен серверу СУБД. Но человек гораздо лучше воспринимает хоть как-то упорядоченные данные — это помогает быстро сравнивать соответствие различных датасетов.

Поэтому со временем у разработчика может выработаться рефлекс «Дай-ка я на всякий случай это вот отсортирую!» Конечно, иногда подобная сортировка бывает оправдана прикладными задачами, но обычно такой случай выглядит как в старом анекдоте:

Программист ставит себе на тумбочку перед сном два стакана. Один с водой — на случай, если захочет ночью пить. А второй пустой — на случай, если не захочет.

Давайте разбираться — когда сортировка в запросе точно не нужна и несет с собой потерю производительности, когда от нее можно относительно дешево избавиться, а когда сделать из нескольких — одну.

PostgreSQL Antipatterns: убираем медленные и ненужные сортировки - 1