Рубрика «cassandra»

Всего одна строка кода, из-за которой 24-ядерный сервер стал работать медленнее ноутбука

2026-01-19 в 21:34, admin, рубрики: cassandra, высокая производительность, кэш процессора, многоядерность, пропускная способность, узкое место

Читать полностью »

Максимизация производительности ScyllaDB

2025-05-19 в 10:15, admin, рубрики: BigData, cassandra, data warehouse, dwh, IoT, no sql, nosql, scylladb, sql, storage

Здравствуйте!

Меня зовут Александр Андреев, я старший инженер данных. В своей первой статье на "Хабре" я хочу рассказать об оптимизации производительности NoSQL базы данных ScyllaDB.

Введение в ScyllaDB

ScyllaDB — это высокопроизводительная распределённая NoSQL база данных, совместимая с Apache Cassandra на уровне протокола, но предлагающая значительно более высокую пропускную способность и меньшую задержку. В отличие от Cassandra, которая написана на Java, ScyllaDB реализована на C++ с использованием фреймворка Seastar Читать полностью »

Как правильно выбрать базу данных для разработки: понимание моделей репликации

2025-03-29 в 11:15, admin, рубрики: cassandra, mongodb, nosql, postgresql, sql, web scalability, базы данных, нагрузка на сервер, разработка, сервисы

Введение

Читать полностью »

Практика создания кастомных сборок Spark Kubernetes Executor

2025-03-24 в 10:16, admin, рубрики: cassandra, docker, dockerfile, executor, kubernetes, pyspark, spark

Поделюсь с коллегами практикой создания Docker-сборок на базе Spark разных версий, которые могут запускаться как Spark Kubernetes Executors для параллельного выполнения Spark-задач в кластере.

В нашем конкретном случае сборки включают Pyspark и Cassandra Connector, однако вы можете использовать этот материал как набор практических примеров, чтобы сконструировать собственные Docker-сборки для Spark на другом стеке или с другими приложениями.

Читать полностью »

Почему СУБД такие медленные

2024-10-21 в 9:01, admin, рубрики: cassandra, CedarDB, DuckDB, dynamodb, imdb, LeanStore, mongodb, mysql, NVMe, OrioleDB, pcie, postgresql, PostgreSQL 17, redis, ruvds_статьи, SATA, spdk, sqlite, ssd, TPC-DS, TPC-H, UmbraDB, Valkey, резидентная БД, соединение хеш-таблиц, структуры данных

Недавно на Хабре публиковался перевод статьи «Просто выберите Postgres» (оригинал, англ. яз) с аргументами, что Postgres — оптимальная БД для десктопных и мобильных приложений. Аналогичное мнение высказывают в других популярных статьях вроде «До свидания MongoDB, здравствуй PostgreSQL». Главным недостатком SQLite называют то, что данные хранятся в одном файле, а MongoDB (а также DynamoDB и Cassandra) — низкую производительность:

«Всё это связано с тем, что подобные базы данных, по сути, представляют собой огромную распределённую хеш-таблицу. Единственные операции, работающие без необходимости сканирования всей базы данных — это поиск по секционному ключу и сканы, при которых используется ключ сортировки.

…Если паттерны доступа существенно изменятся, то может потребоваться полная повторная обработка всех данных».

Более производительные резидентные БД хранят данные в памяти (Redis, Valkey), но их использование ограничено объёмом ОЗУ.

После такого заявления интересно посмотреть на независимые тесты производительности разных СУБД.Читать полностью »

Просто выберите Postgres

2024-08-19 в 16:56, admin, рубрики: cassandra, dynamodb, elasticsearch, mongodb, mssql, nosq, sql, sqlite, Valkey

Отчасти это действенный совет, отчасти — вопрос к читателям.

Совет: при создании нового приложения, требующего постоянного хранения данных, как это и бывает в случае большинства веб-приложений, по умолчанию следует выбирать Postgres.

Почему не sqlite?

sqlite — достаточно неплохая база данных, но данные хранятся в одном файле.

Читать полностью »

Сборка мусора в неисправных JVM, проактивный подход

2022-11-18 в 14:00, admin, рубрики: cassandra, cloud, data, elasticsearch, java, jvm, netflix, node.js, oom, python, timeweb_статьи_перевод, Блог компании Timeweb Cloud, дамп, Компиляторы, логи, ОС, Программирование, файл, хранение данных

Команда Netflix Cloud Data Engineering работает с различными приложениями для JVM, включая такие популярные хранилища данных, как Cassandra и Elasticsearch. Хотя большинство наших кластеров стабильно работают, обходясь выделенной им памятью, иногда «запрос смерти» или ошибка в самом хранилище данных приводят к перерасходу памяти, что может спровоцировать лишние циклы сборки мусора или даже привести к исчерпанию памяти в JVM.
Читать полностью »

Как одной строкой сделать 24-ядерный сервер медленнее ноутбука

2022-02-01 в 10:39, admin, рубрики: cassandra, Rust, базы данных, бенчмаркинг, Блог компании М.Видео-Эльдорадо, Клиентская оптимизация, мвидео, оптимизация программ, Параллелизм, параллельные вычисления, Серверная оптимизация, Эльдорадо

Лучше учиться на чужих ошибках, поэтому мы в М.Видео-Эльдорадо стремимся изучать зарубежный опыт. Предлагаем и вам посмотреть перевод статьи Петра Колачковского, получившего черный пояс по прокачке производительности своего железа.Читать полностью »

Наш опыт миграции Cassandra между Kubernetes-кластерами без потери данных

2020-04-22 в 9:05, admin, рубрики: cassandra, devops, kubernetes, kubernetes operator, Администрирование баз данных, Блог компании Флант, системное администрирование

Наш опыт миграции Cassandra между Kubernetes-кластерами без потери данных - 1

Последние ~полгода для работы с Cassandra в Kubernetes мы использовали Rook operator. Однако, когда нам потребовалось выполнить весьма тривиальную, казалось бы, операцию: поменять параметры в конфиге Cassandra, — обнаружилось, что оператор не обеспечивает достаточной гибкости. Чтобы внести изменения, требовалось склонировать репозиторий, внести изменения в исходники и пересобрать оператор (конфиг встроен в сам оператор, поэтому ещё пригодится знание Go). Всё это занимает много времени.

Обзор существующих операторов мы уже делали, и на сей раз остановились на CassKop от Orange, который поддерживает нужные возможности, а в частности — кастомные конфиги и мониторинг из коробки.Читать полностью »

ClickHouse – визуально быстрый и наглядный анализ данных в Tabix. Игорь Стрыхарь

2020-03-06 в 7:26, admin, рубрики: apache zeppelin, big data, cassandra, clickhouse, clickhouse-grafana, DataGrip, devops, druid, infiniDB, redash.io, Superset Airbnb, Tabix, Администрирование баз данных, визуализация данных

Предлагаю ознакомиться с расшифровкой доклада 2017 года Игорь Стрыхарь «ClickHouse – визуально быстрый и наглядный анализ данных в Tabix».

Веб-интерфейс для ClickHouse в проекте Tabix.
Основные возможности:

Работает с ClickHouse напрямую из браузера, без необходимости установки дополнительного ПО;
Редактор запросов с подсветкой синтаксиса;
Автодополнение команд;
Инструменты графического анализа выполнения запросов;
Цветовые схемы на выбор.

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «cassandra»

Всего одна строка кода, из-за которой 24-ядерный сервер стал работать медленнее ноутбука

Максимизация производительности ScyllaDB

Введение в ScyllaDB

Как правильно выбрать базу данных для разработки: понимание моделей репликации

Введение

Практика создания кастомных сборок Spark Kubernetes Executor

Почему СУБД такие медленные

Просто выберите Postgres

Почему не sqlite?

Сборка мусора в неисправных JVM, проактивный подход

Как одной строкой сделать 24-ядерный сервер медленнее ноутбука

Наш опыт миграции Cassandra между Kubernetes-кластерами без потери данных

ClickHouse – визуально быстрый и наглядный анализ данных в Tabix. Игорь Стрыхарь