Рубрика «data engineering»
BLIMP — Пайплайн синтеза и разметки изображений в Blender
2026-01-26 в 12:37, admin, рубрики: blender, blender 3d, blender 4.5, data engineering, data mining, изображения, искусственный интеллект, пайплайн, синтетические данные
WAP паттерн в data-engineering
2025-08-16 в 6:15, admin, рубрики: big data, BigData, data engineering, data quality, data warehouse, DataLake, etl, warehouseВ русскоязычной части интернета присутствует много статей по теме паттернов разработки, однако я не нашел никакой информации о паттернах работы с данными.
В данной статье я хочу рассказать о паттерне Write-Audit-Publish, о предпосылках его появления, а также наглядно рассмотреть как он работает.
История зарождения
С момента появления концепции data lake, компании старались собирать как можно данных, иногда не слишком задумываясь об их качестве. Появилось четкое понимание, что данные "когда-нибудь" могут быть использованы. Так, согласно исследованиям market.usЧитать полностью »
Data Vault: моделирование хабов, линков, сателлитов в IDE asapBI
2025-07-29 в 16:15, admin, рубрики: data engineering, data vault 2.0, greenplum, IDE, postgresqlПривет!
Всем хорош Data Vault, однако схватиться с ним «врукопашную», используя только SQL, захочет не каждый. Останавливает большой объем ручных операций, а также большой объем деталей реализации. Большое количество join, за которые критикуют Data Vault, не является определяющим моментом, так как уже сейчас базы данных способны их эффективно обрабатывать, а с течением времени мощность серверов только возрастает.
Но творческая мысль не дремлет, постепенно появляются инструменты для автоматизации построения Data Vault. Например, это пакет AutomateDV для dbtЧитать полностью »
ELT процесс в архитектуре Data lakehouse на базе open-source (kafka, dagster, s3+iceberg, trino, clickhouse и DBT)
2025-07-26 в 6:31, admin, рубрики: clickhouse, dagster, data engineering, datalakehouse, dbt, ETL-процессы, open source, trino, yml-файлК нам обратился один из крупнейших строительных холдингов России (ГК компаний из 10+ юридических лиц) с потребностью в сборе всех данных с филиалом, анализе и визуализации на дашбордах.
При входе на проект аналитической инфраструктуры у компании почти не было, только множество учетных систем без централизованного хранилища данных. Объем проекта был непонятен, «аппетит приходит во время еды». Важная особенность проекта – полностью закрытый контур с доступом через терминальные решения.
Было решение выбрать архитектуру Data Lakehouse на open source стеке, основой которого стали - kafka, dagster, s3+iceberg, trino, clickhouse и DBT. Читать полностью »
Как мы храним 20000+ метрик и миллиарды комбинаций разрезов в одной таблице
2025-05-29 в 9:12, admin, рубрики: BigData, clickhouse, data analysis, data engineering, data structures, M42, python, storageПривет! Меня зовут Влад Божьев, я старший разработчик юнита АБ-тестирования Авито. В нашей команде мы ежедневно работаем с по-настоящему большими объёмами данных – это не просто фигура речи, это наша реальность. Мы помогаем создавать метрики, которые помогают бизнесу не «гадать на кофейной гуще», а принимать взвешенные решения, основанные на данных.
Join таблиц в реальном времени на Apache Flink
2025-05-07 в 12:53, admin, рубрики: Apache Flink, BigData, data engineering, javaДопустим есть 2 таблицы в любой реляционной базе данных.
Таблица users весом 4TB
|
id |
firstname |
lastname |
|
1 |
Egor |
Myasnik |
|
2 |
Pavel |
Hvastun |
|
3 |
Mitya |
Volk |
Таблица domains 2TB
|
id |
user_id |
domain_name |
|
1 |
1 |
Approval |
|
2 |
1 |
Rejection |
|
3 |
1 |
Читать полностью » |
История исследования и анализа информации. Архитектура Data Mesh: концептуальные основы
2025-04-24 в 4:15, admin, рубрики: big data, data engineering, data mesh, DDD, etl, smart dataС возникновением первых вычислительных машин предприятия осознали потребность в обработке и анализе информации.
В 1980-е годы они приступили к формированию информационных хранилищ, основанных на реляционных базах данных, которые стали ключевым инструментом для принятия взвешенных решений.
Но по мере того как компании накапливали всё больше разнородных сведений, недостатки реляционных баз данных становились всё более явными.
С началом нового тысячелетия мы вступили в эпоху больших данных.Читать полностью »
SSDF — велосипед для ETL на SQL
2025-04-01 в 7:15, admin, рубрики: data engineering, postgresql, sql
Речь пойдет о моем пет-проекте - SSDF (super SQL data flow).
Когда-то я работал в одной компании, у нас было ХД на MSSQL и самописный велосипед для организации ETL/data flow; так и назывался - dataflow.
Выглядел он следующим образом (если описывать вкратце).
Озеро для дата-склада: как мы нырнули в новые методы хранения данных и что из этого вышло
2025-01-27 в 6:15, admin, рубрики: data, data engineering, data lake, data warehouse, dwh, архитектура данных, базы данных, данные, корпоративное хранилище данных, хранилище данныхПривет! Меня зовут Михаил Килинский, я — Senior Developer в проекте Data Warehouse «Лаборатории Касперского». Наша команда строит хранилища данных и разрабатывает ETL- и ELT-процессы, мы пишем на Python, SQL и C# (.NET), а весь код находится в монорепозитории.

Nvidia Triton Inference Server: строим production ML без разработчиков
2024-12-16 в 8:07, admin, рубрики: data engineering, inference, ml-платформа, mlops, selectel, облачные сервисы, платформы
Привет! Меня зовут Антон, я DevOps-инженер в команде Data/ML-продуктов Selectel. В этой статье расскажу про наш новый продукт — Inference-платформу Selectel, а также вызовы, с которыми мы столкнулись при ее разработке без разработчиков.
Почему без разработчиков? Рынок ML все еще молодой. В его российском сегменте не так много решений, связанных с Inference‑платформами. Перед началом создания полноценного продукта наша команда сначала проверяет технологические гипотезы, не растрачивая существенные ресурсы на разработку. Все делается силами небольшой команды Ops‑инженеров. Мы используем сервисы с открытым исходным кодом на базе инфраструктуры облака Selectel — тем самым достаточно быстро и недорого тестируем предположения, а в случае успеха легко масштабируем до готового продукта. Дальнейшее развитие уже определяется обратной связью от наших клиентов.Читать полностью »
