Рубрика «clickhouse»

ClickHouse: MergeTree с нуля

2026-02-18 в 14:15, admin, рубрики: big data, clickhouse, data engineering, MergeTree, sql, tutorial, СУБД, хранилища данных

Привет!

Меня зовут Натаров Иван. Я занимаюсь вопросами обработки, анализа и визуализации данных.

ClickHouse сегодня стал стандартом де-факто для аналитических задач, но часто начинающие специалисты тратят слишком много времени на погружение в технологию. Документация зачастую дает либо слишком поверхностное объяснение, либо уходит в технические детали, которые сложны для восприятия новичками.

В этой статье мы разберем фундамент ClickHouse - движок MergeTreeЧитать полностью »

Atomic insert in Clickhouse

2025-11-23 в 8:15, admin, рубрики: atomic, clickhouse, etl, insert, sql, атомарность, витрины данных, кликхаус

В этой статье мы поговорим о том, как реализовать поведение атомарной вставки в ClickHouse. Рассмотрим несколько вариантов, подсветим их сильные и слабые стороны, а также, когда каждый из них применять.

Задача

Мы хотим добиться, чтобы не было случаев, когда мы начали вставку, а пользователь прочитал данные до её завершения и получил неактуальный (неполный) набор данных.

Неатомарная вставка = риск чтения некорректного набора данных.

Сценарии, когда такое может произойти:

Удалили партицию и хотели начать вставлять данные взамен удалённой, но пользователь обратился к этому интервалу.

Читать полностью »

ULID, UUIDv4 и UUIDv7 в логах nginx: как сделать поиск по ID быстрым и удобным в ClickHouse

2025-10-26 в 9:23, admin, рубрики: clickhouse, logs, nginx, ulid, uuid, UUIDv4, UUIDv7

Зачем нужны ID запросов в логах?

Когда вы работаете с распределённой системой — будь то микросервисы, фронтенд + бэкенд или nginx + приложение — жизненно важно иметь ��озможность «протянуть» один и тот же идентификатор запроса через все её компоненты. Это позволяет сопоставлять логи из разных источников, быстро находить ошибки и проводить корреляционный анализ.

В nginx для этого из коробки есть переменная $request_id — 32-символьный hex-идентификатор (например, a1b2c3d4e5f678901234567890abcdef). Его можно передать бэкенду через proxy_set_header X-Request-ID $request_id; или fastcgi_param HTTP_X_REQUEST_ID $request_id;, а также сохранить в access-логах.

Читать полностью »

ClickHouse vs StarRocks: сравнение выбора MPP‑баз данных для всех сценариев

2025-10-21 в 9:15, admin, рубрики: clickhouse, join, mpp, olap, ssbench, StarRocks, TPC-H, СУБД

Все датасеты, конфигурации и результаты тестирования в данной статье актуализированы по состоянию на 2022 год. Если вам интересно, вы можете воспроизвести тестирование, скачав актуальные наборы данных и следуя последним инструкциям соответствующих проектов/бенчмарков (например, ClickHouse, StarRocks, TPC‑H, SSB). Мы будем признательны за обратную связь: поделитесь, пожалуйста, вашими результатами и замечаниями.

Новый выбор среди колоночных СУБД

Читать полностью »

Uptrace v2.0: как новый JSON-тип ClickHouse ускорил запросы по трейсам в 10 раз

2025-10-16 в 8:47, admin, рубрики: clickhouse, devops, distributed tracing, observability, opentelemetry, tracing, микросервисы, производительность

Делюсь практическим опытом внедрения Uptrace v2.0 — от разворачивания до оптимизации запросов. С цифрами, кодом и реальными кейсами.

TL;DR

Uptrace v2.0 использует новый JSON-тип ClickHouse для хранения трейсов, что даёт 10x ускорение запросов. Показываю на практике: установка за 5 минут, настройка трансформаций данных, экономия на retention policies. Бенчмарки на 500M span'ах: запросы стали выполняться за 0.3-0.5 сек вместо 4-7 сек.

Почему я вообще это затеял

Читать полностью »

Clickhouse в машинном обучении без использования GPU (Часть 1)

2025-09-24 в 4:41, admin, рубрики: clickhouse, ml, sql, токенизация

Один из моих коллег сказал когда-то, что "база данных - это хранилище, а не считалище!"Читать полностью »

Clickhouse – zookeeper. Развертывание

2025-08-29 в 15:17, admin, рубрики: clickhouse, clickhouse-keeper, zookeeper

Всем привет! В этой статье я расскажу свой опыт установки БД Clickhouse на пару с zookeeper`ом.

Установка

Для начала скачаем пакеты для установки

wget curl https://packages.clickhouse.com/tgz/stable/clickhouse-client-22.9.3.18-amd64.tgz && 
wget curl https://packages.clickhouse.com/tgz/stable/clickhouse-common-static-22.9.3.18-amd64.tgz && 
wget curl https://packages.clickhouse.com/tgz/stable/clickhouse-common-static-dbg-22.9.3.18-amd64.tgz && 
wget curl https://packages.clickhouse.com/tgz/stable/clickhouse-server-22.9.3.18-amd64.tgz

Список версий можно посмотреть здесь.

Читать полностью »

Сравнительный анализ баз данных для хранения миллиардов записей логов

2025-08-22 в 15:15, admin, рубрики: clickhouse, postgresql, redis, sql, база данных

Сравнительный анализ баз данных для хранения миллиардов записей логов

В современную эпоху больших данных выбор оптимальной системы управления базами данных для работы с миллиардами записей становится критически важным. В данной статье проводится детальный анализ четырех популярных СУБД (MySQL, PostgreSQL, Redis и ClickHouse) с точки зрения их эффективности при работе с большими объемами данных журналирования, с постоянной записью новых данных и необходимостью выполнения сложных поисковых запросов через веб-интерфейс.

Критерии сравнения

Для объективной оценки рассматриваются следующие ключевые аспекты:

Читать полностью »

Как я раздул из гофера слона или история распределенного сократителя ссылок

2025-08-07 в 8:16, admin, рубрики: architecture, clickhouse, golang, grpc, high-load, Microservices, opentelemetry

Вполне логично предположить, что сократитель ссылок — довольно простой сервис как с точки зрения пользователя, так и под капотом. Но что, если, взяв за основу такую простую задачу, построить целую распределенную систему?

Мой шортенер начинался как простая практика с Go и gRPCЧитать полностью »

ELT процесс в архитектуре Data lakehouse на базе open-source (kafka, dagster, s3+iceberg, trino, clickhouse и DBT)

2025-07-26 в 6:31, admin, рубрики: clickhouse, dagster, data engineering, datalakehouse, dbt, ETL-процессы, open source, trino, yml-файл

К нам обратился один из крупнейших строительных холдингов России (ГК компаний из 10+ юридических лиц) с потребностью в сборе всех данных с филиалом, анализе и визуализации на дашбордах.

При входе на проект аналитической инфраструктуры у компании почти не было, только множество учетных систем без централизованного хранилища данных. Объем проекта был непонятен, «аппетит приходит во время еды». Важная особенность проекта – полностью закрытый контур с доступом через терминальные решения.

Было решение выбрать архитектуру Data Lakehouse на open source стеке, основой которого стали - kafka, dagster, s3+iceberg, trino, clickhouse и DBT. Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «clickhouse»

ClickHouse: MergeTree с нуля

Atomic insert in Clickhouse

ULID, UUIDv4 и UUIDv7 в логах nginx: как сделать поиск по ID быстрым и удобным в ClickHouse

Зачем нужны ID запросов в логах?

ClickHouse vs StarRocks: сравнение выбора MPP‑баз данных для всех сценариев

Новый выбор среди колоночных СУБД

Uptrace v2.0: как новый JSON-тип ClickHouse ускорил запросы по трейсам в 10 раз

Почему я вообще это затеял

Clickhouse в машинном обучении без использования GPU (Часть 1)

Clickhouse – zookeeper. Развертывание

Установка

Сравнительный анализ баз данных для хранения миллиардов записей логов

Сравнительный анализ баз данных для хранения миллиардов записей логов

Критерии сравнения

Как я раздул из гофера слона или история распределенного сократителя ссылок

ELT процесс в архитектуре Data lakehouse на базе open-source (kafka, dagster, s3+iceberg, trino, clickhouse и DBT)