Рубрика «data engineering»

BLIMP — Пайплайн синтеза и разметки изображений в Blender

2026-01-26 в 12:37, admin, рубрики: blender, blender 3d, blender 4.5, data engineering, data mining, изображения, искусственный интеллект, пайплайн, синтетические данные

Синтез фотореалистичных сцен, их точных карт глубины и сегментационных масок

Читать полностью »

WAP паттерн в data-engineering

2025-08-16 в 6:15, admin, рубрики: big data, BigData, data engineering, data quality, data warehouse, DataLake, etl, warehouse

В русскоязычной части интернета присутствует много статей по теме паттернов разработки, однако я не нашел никакой информации о паттернах работы с данными.

В данной статье я хочу рассказать о паттерне Write-Audit-Publish, о предпосылках его появления, а также наглядно рассмотреть как он работает.

История зарождения

С момента появления концепции data lake, компании старались собирать как можно данных, иногда не слишком задумываясь об их качестве. Появилось четкое понимание, что данные "когда-нибудь" могут быть использованы. Так, согласно исследованиям market.us Читать полностью »

Data Vault: моделирование хабов, линков, сателлитов в IDE asapBI

2025-07-29 в 16:15, admin, рубрики: data engineering, data vault 2.0, greenplum, IDE, postgresql

Привет!

Всем хорош Data Vault, однако схватиться с ним «врукопашную», используя только SQL, захочет не каждый. Останавливает большой объем ручных операций, а также большой объем деталей реализации. Большое количество join, за которые критикуют Data Vault, не является определяющим моментом, так как уже сейчас базы данных способны их эффективно обрабатывать, а с течением времени мощность серверов только возрастает.

Но творческая мысль не дремлет, постепенно появляются инструменты для автоматизации построения Data Vault. Например, это пакет AutomateDV для dbt Читать полностью »

ELT процесс в архитектуре Data lakehouse на базе open-source (kafka, dagster, s3+iceberg, trino, clickhouse и DBT)

2025-07-26 в 6:31, admin, рубрики: clickhouse, dagster, data engineering, datalakehouse, dbt, ETL-процессы, open source, trino, yml-файл

К нам обратился один из крупнейших строительных холдингов России (ГК компаний из 10+ юридических лиц) с потребностью в сборе всех данных с филиалом, анализе и визуализации на дашбордах.

При входе на проект аналитической инфраструктуры у компании почти не было, только множество учетных систем без централизованного хранилища данных. Объем проекта был непонятен, «аппетит приходит во время еды». Важная особенность проекта – полностью закрытый контур с доступом через терминальные решения.

Было решение выбрать архитектуру Data Lakehouse на open source стеке, основой которого стали - kafka, dagster, s3+iceberg, trino, clickhouse и DBT. Читать полностью »

Как мы храним 20000+ метрик и миллиарды комбинаций разрезов в одной таблице

2025-05-29 в 9:12, admin, рубрики: BigData, clickhouse, data analysis, data engineering, data structures, M42, python, storage

Привет! Меня зовут Влад Божьев, я старший разработчик юнита АБ-тестирования Авито. В нашей команде мы ежедневно работаем с по-настоящему большими объёмами данных – это не просто фигура речи, это наша реальность. Мы помогаем создавать метрики, которые помогают бизнесу не «гадать на кофейной гуще», а принимать взвешенные решения, основанные на данных.

Читать полностью »

Join таблиц в реальном времени на Apache Flink

2025-05-07 в 12:53, admin, рубрики: Apache Flink, BigData, data engineering, java

Допустим есть 2 таблицы в любой реляционной базе данных.
Таблица users весом 4TB

id	firstname	lastname
1	Egor	Myasnik
2	Pavel	Hvastun
3	Mitya	Volk

Таблица domains 2TB

id	user_id	domain_name
1	1	Approval
2	1	Rejection
3	1	Читать полностью »

История исследования и анализа информации. Архитектура Data Mesh: концептуальные основы

2025-04-24 в 4:15, admin, рубрики: big data, data engineering, data mesh, DDD, etl, smart data

С возникновением первых вычислительных машин предприятия осознали потребность в обработке и анализе информации.

В 1980-е годы они приступили к формированию информационных хранилищ, основанных на реляционных базах данных, которые стали ключевым инструментом для принятия взвешенных решений.

Но по мере того как компании накапливали всё больше разнородных сведений, недостатки реляционных баз данных становились всё более явными.

С началом нового тысячелетия мы вступили в эпоху больших данных.Читать полностью »

SSDF — велосипед для ETL на SQL

2025-04-01 в 7:15, admin, рубрики: data engineering, postgresql, sql

Речь пойдет о моем пет-проекте - SSDF (super SQL data flow).

Когда-то я работал в одной компании, у нас было ХД на MSSQL и самописный велосипед для организации ETL/data flow; так и назывался - dataflow.

Выглядел он следующим образом (если описывать вкратце).

Читать полностью »

Озеро для дата-склада: как мы нырнули в новые методы хранения данных и что из этого вышло

2025-01-27 в 6:15, admin, рубрики: data, data engineering, data lake, data warehouse, dwh, архитектура данных, базы данных, данные, корпоративное хранилище данных, хранилище данных

Привет! Меня зовут Михаил Килинский, я — Senior Developer в проекте Data Warehouse «Лаборатории Касперского». Наша команда строит хранилища данных и разрабатывает ETL- и ELT-процессы, мы пишем на Python, SQL и C# (.NET), а весь код находится в монорепозитории.

Озеро для дата-склада: как мы нырнули в новые методы хранения данных и что из этого вышло - 1

Читать полностью »

Nvidia Triton Inference Server: строим production ML без разработчиков

2024-12-16 в 8:07, admin, рубрики: data engineering, inference, ml-платформа, mlops, selectel, облачные сервисы, платформы

Привет! Меня зовут Антон, я DevOps-инженер в команде Data/ML-продуктов Selectel. В этой статье расскажу про наш новый продукт — Inference-платформу Selectel, а также вызовы, с которыми мы столкнулись при ее разработке без разработчиков.

Почему без разработчиков? Рынок ML все еще молодой. В его российском сегменте не так много решений, связанных с Inference‑платформами. Перед началом создания полноценного продукта наша команда сначала проверяет технологические гипотезы, не растрачивая существенные ресурсы на разработку. Все делается силами небольшой команды Ops‑инженеров. Мы используем сервисы с открытым исходным кодом на базе инфраструктуры облака Selectel — тем самым достаточно быстро и недорого тестируем предположения, а в случае успеха легко масштабируем до готового продукта. Дальнейшее развитие уже определяется обратной связью от наших клиентов.Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «data engineering»

BLIMP — Пайплайн синтеза и разметки изображений в Blender

WAP паттерн в data-engineering

История зарождения

Data Vault: моделирование хабов, линков, сателлитов в IDE asapBI

ELT процесс в архитектуре Data lakehouse на базе open-source (kafka, dagster, s3+iceberg, trino, clickhouse и DBT)

Как мы храним 20000+ метрик и миллиарды комбинаций разрезов в одной таблице

Join таблиц в реальном времени на Apache Flink

История исследования и анализа информации. Архитектура Data Mesh: концептуальные основы

SSDF — велосипед для ETL на SQL

Озеро для дата-склада: как мы нырнули в новые методы хранения данных и что из этого вышло

Nvidia Triton Inference Server: строим production ML без разработчиков