К написанию данной статьи меня подтолкнула другая статья:
«Не только sum() и uniq(): малоизвестные и очень полезные функции ClickHouse»
и вопрос автора: «В комментариях расскажите, какие „непопулярные“ функции кликхаус упростили вам жизнь.»
Недолго думая, я ответил: cityHash64().
Рубрика «data engineering»
Моя любимая функция в ClickHouse, или оптимизируем вообще всё с помощью cityHash64()
2026-03-20 в 9:15, admin, рубрики: cityhash, clickhouse, data engineering, sql, анализ данных, аналитика, оптимизация, хеш, хеш-функции, хешированиеПочему HTTP-загрузка в Apache Doris такая быстрая: разбор Stream Load по исходникам
2026-02-20 в 14:16, admin, рубрики: apache doris, data engineering, olap-кубы, real time, stream loadРешил я как-то выгрузить пару лет переписки из Telegram в Apache Doris на своем компе. Зачем? Я тестирую Doris как единую систему хранения и поиска по всем личным данным: сообщениям из мессенджеров, ChatGPT, записям встреч и почте.
Первый запуск был болезненным: загрузка занимала почти 2 часа. После небольшой оптимизации пайплайна тот же сценарий дал другой результат: 206 400 сообщений за 5 секунд, то есть примерно 41 280 сообщений в секунду. Для контекста: каждое сообщение я грузил как JSON-массив.
В этот момент я подумал: «Окей, а что именно внутри Doris делает такую разницу между “2 часа” и “5 секунд”?».
ClickHouse: MergeTree с нуля
2026-02-18 в 14:15, admin, рубрики: big data, clickhouse, data engineering, MergeTree, sql, tutorial, СУБД, хранилища данныхПривет!
Меня зовут Натаров Иван. Я занимаюсь вопросами обработки, анализа и визуализации данных.
ClickHouse сегодня стал стандартом де-факто для аналитических задач, но часто начинающие специалисты тратят слишком много времени на погружение в технологию. Документация зачастую дает либо слишком поверхностное объяснение, либо уходит в технические детали, которые сложны для восприятия новичками.
В этой статье мы разберем фундамент ClickHouse - движок MergeTreeЧитать полностью »
BLIMP — Пайплайн синтеза и разметки изображений в Blender
2026-01-26 в 12:37, admin, рубрики: blender, blender 3d, blender 4.5, data engineering, data mining, изображения, искусственный интеллект, пайплайн, синтетические данные
WAP паттерн в data-engineering
2025-08-16 в 6:15, admin, рубрики: big data, BigData, data engineering, data quality, data warehouse, DataLake, etl, warehouseВ русскоязычной части интернета присутствует много статей по теме паттернов разработки, однако я не нашел никакой информации о паттернах работы с данными.
В данной статье я хочу рассказать о паттерне Write-Audit-Publish, о предпосылках его появления, а также наглядно рассмотреть как он работает.
История зарождения
С момента появления концепции data lake, компании старались собирать как можно данных, иногда не слишком задумываясь об их качестве. Появилось четкое понимание, что данные "когда-нибудь" могут быть использованы. Так, согласно исследованиям market.usЧитать полностью »
Data Vault: моделирование хабов, линков, сателлитов в IDE asapBI
2025-07-29 в 16:15, admin, рубрики: data engineering, data vault 2.0, greenplum, IDE, postgresqlПривет!
Всем хорош Data Vault, однако схватиться с ним «врукопашную», используя только SQL, захочет не каждый. Останавливает большой объем ручных операций, а также большой объем деталей реализации. Большое количество join, за которые критикуют Data Vault, не является определяющим моментом, так как уже сейчас базы данных способны их эффективно обрабатывать, а с течением времени мощность серверов только возрастает.
Но творческая мысль не дремлет, постепенно появляются инструменты для автоматизации построения Data Vault. Например, это пакет AutomateDV для dbtЧитать полностью »
ELT процесс в архитектуре Data lakehouse на базе open-source (kafka, dagster, s3+iceberg, trino, clickhouse и DBT)
2025-07-26 в 6:31, admin, рубрики: clickhouse, dagster, data engineering, datalakehouse, dbt, ETL-процессы, open source, trino, yml-файлК нам обратился один из крупнейших строительных холдингов России (ГК компаний из 10+ юридических лиц) с потребностью в сборе всех данных с филиалом, анализе и визуализации на дашбордах.
При входе на проект аналитической инфраструктуры у компании почти не было, только множество учетных систем без централизованного хранилища данных. Объем проекта был непонятен, «аппетит приходит во время еды». Важная особенность проекта – полностью закрытый контур с доступом через терминальные решения.
Было решение выбрать архитектуру Data Lakehouse на open source стеке, основой которого стали - kafka, dagster, s3+iceberg, trino, clickhouse и DBT. Читать полностью »
Как мы храним 20000+ метрик и миллиарды комбинаций разрезов в одной таблице
2025-05-29 в 9:12, admin, рубрики: BigData, clickhouse, data analysis, data engineering, data structures, M42, python, storageПривет! Меня зовут Влад Божьев, я старший разработчик юнита АБ-тестирования Авито. В нашей команде мы ежедневно работаем с по-настоящему большими объёмами данных – это не просто фигура речи, это наша реальность. Мы помогаем создавать метрики, которые помогают бизнесу не «гадать на кофейной гуще», а принимать взвешенные решения, основанные на данных.
Join таблиц в реальном времени на Apache Flink
2025-05-07 в 12:53, admin, рубрики: Apache Flink, BigData, data engineering, javaДопустим есть 2 таблицы в любой реляционной базе данных.
Таблица users весом 4TB
|
id |
firstname |
lastname |
|
1 |
Egor |
Myasnik |
|
2 |
Pavel |
Hvastun |
|
3 |
Mitya |
Volk |
Таблица domains 2TB
|
id |
user_id |
domain_name |
|
1 |
1 |
Approval |
|
2 |
1 |
Rejection |
|
3 |
1 |
Читать полностью » |

