Рубрика «data lake»

apache iceberg и его философия

2026-05-10 в 14:16, admin, рубрики: acid, data lake, data lakehouse, hdfs, iceberg, MetaData, olap, s3

Всем привет! В этой статье хочу рассказать про то, как Iceberg работает под капотом, и про то, как он эффективно может взаимодействовать с данными через свою metadata.

Iceberg — табличный формат для больших аналитических наборов данных.
По сути, Iceberg — это прослойка между Data Lake и движками запросов, которая с помощью metadata позволяет движкам делать эффективные запросы.

философия iceberg

разделение data и metadata
атомарные обновления, консистентность и изоляция
time travel и branch
поддержка Читать полностью »

Платформа данных на минималках. Часть 1: проблемы Data Lake и роль Iceberg

2026-04-14 в 8:00, admin, рубрики: data lake, Data Platform, iceberg, selectel, платформа данных

Читать полностью »

Озеро для дата-склада: как мы нырнули в новые методы хранения данных и что из этого вышло

2025-01-27 в 6:15, admin, рубрики: data, data engineering, data lake, data warehouse, dwh, архитектура данных, базы данных, данные, корпоративное хранилище данных, хранилище данных

Привет! Меня зовут Михаил Килинский, я — Senior Developer в проекте Data Warehouse «Лаборатории Касперского». Наша команда строит хранилища данных и разрабатывает ETL- и ELT-процессы, мы пишем на Python, SQL и C# (.NET), а весь код находится в монорепозитории.

Озеро для дата-склада: как мы нырнули в новые методы хранения данных и что из этого вышло - 1

Читать полностью »

Data driven на практике: с чего начать, как избежать ошибок и эффективно применять

2024-12-17 в 11:24, admin, рубрики: data lake, data-driven, IoT, автоматизация процессов, аналитика данных, принятие решений, управление данными, цифровая трансформация, цифровые двойники

Привет, меня зовут Александр Окороков, я основатель и генеральный директор ИТ-компании и автор медиа вАЙТИ. Мы помогаем заказчикам выстроить оптимальную стратегию принятия управленческих решений, чтобы эффективно использовать ресурсы и не терять деньги. Именно эту задачу решает data-driven-подход к принятию решений и управлению продуктом с опорой на данные.

Читать полностью »

Что в глубинах Data Lake? Строим архитектуру, укладываем слои, распределяем ответственность

2022-03-15 в 12:52, admin, рубрики: big data, data governance, data lake, data mesh, Hadoop, Администрирование баз данных, архитектура, базы данных, Блог компании МТС, хранение данных, хранилища данных, хранилище данных

Привет! Меня зовут Григорий Коваль, я технический руководитель Core Data Lake центра Big Data МТС. Сегодня я расскажу о том, какие слои находятся внутри Data Lake, как построить архитектуру базы данных и чем распределенный Data Mesh-подход отличается от монолитного хранения данных.

Что в глубинах Data Lake? Строим архитектуру, укладываем слои, распределяем ответственность - 1

Для создания Data Lake нужен итерационный подход – agile и все, что с этим связано. Еще необходимо правильно организовать работу команд, синхронизировать их распределить ответственность между участниками. Тогда получится прямая связь между пользователями и людьми, которые развивают витрины данных или домены. В этой статье поговорим о задачах, архитектуре и проблемах развития Data lake, а также обсудим способы решения возникающих проблем, специфику процессов и перспективы развития. Читать полностью »

ClickHouse: путь джедая, искавшего дом для своих данных

2021-09-07 в 7:12, admin, рубрики: big data, clickhouse, data lake, Блог компании Туту.ру, хранение данных, хранилище данных

* Юристы попросили нас написать, что картинка шуточная, и мы уважаем всех гордых любителей разных систем хранения данных.

Читать полностью »

Как мы искали неработающие датчики на «УРАЛХИМЕ» (первый проект Data Lake)

2020-11-05 в 11:24, admin, рубрики: big data, data lake, Блог компании КРОК, датчики, сбор данных, хранение данных, хранилища данных

«УРАЛХИМ» делает удобрения. № 1 в России — по производству аммиачной селитры, например, входит в топ-3 отечественных производителей аммиака, карбамида, азотных удобрений. Выпускаются серные кислоты, двух-трёхкомпонентные удобрения, фосфаты и многое другое. Это всё создаёт агрессивные среды, в которых выходят из строя датчики.

Мы строили Data Lake и заодно охотились на те датчики, которые замерзают, выходят из строя, начинают давать ложные данные и вообще ведут себя не так, как должны себя вести источники информации. А «фишка» в том, что невозможно строить матмодели и цифровые двойники на базе «плохих» данных: они просто не будут правильно решать задачу и давать бизнес-эффект.

Но современным производствам нужны Data Lake'и для дата-сайентистов. В 95 % случаев «сырые» данные никак не собираются, а учитываются только агрегаты в АСУТП, которые хранятся два месяца и сохраняются точки «изменения динамики» показателя, которые вычисляются специально заложенным алгоритмом, что для дата-сайентистов снижает качество данных, т. к., возможно, может пропустить «всплески» показателя… Собственно, примерно так и было на «УРАЛХИМЕ». Нужно было создать хранилище производственных данных, подцепиться к источникам в цехах и в MES/ERP-системах. В первую очередь это нужно для того, чтобы начать собирать историю для дата-сайенса. Во вторую очередь — чтобы дата-сайентисты имели площадку для своих расчётов и песочницу для проверки гипотез, а не нагружали ту же самую, где крутится АСУ ТП. Дата-сайентисты пробовали сделать анализ имеющихся данных, но этого не хватило. Данные хранились прореженные, с потерями, часто неконсистентные с датчиком. Взять датасет быстро не было возможности, и работать с ним тоже было особо негде.

Теперь вернёмся к тому, что делать, если датчик «гонит».
Читать полностью »

Переход от монолитного Data Lake к распределённой Data Mesh

2020-04-04 в 12:19, admin, рубрики: big data, data lake, data mesh, Data Platform, data warehouse, dwh, перевод, хранилища данных

Привет! Представляю вашему вниманию перевод статьи «How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh» автора Zhamak Dehghani (Жамак Дегани)(все изображения взяты из этой же статьи).

Все крупные компании сейчас пытаются строить огромные централизованные хранилища данных. Или же ещё более огромные кластерные Data Lakes (как правило, на хадупе). Но мне не известно ни одного примера успешного построения такой платформы данных. Везде это боль и страдание как для тех, кто строит платформу данных, так и для пользователей. В статье ниже автор (Жамак Дегани) предлагает совершенно новый подход к построению платформы данных. Это архитектура платформы данных четвертого поколения, которая называется Data Mesh. Оригинальная статья на английском весьма объёмна и откровенно тяжело читается. Перевод так же получился немаленьким и текст не очень прост: длинные предложения, суховатая лексика. Я не стал переформулировать мысли автора, дабы сохранить точность формулировок. Но я крайне рекомендую таки продраться через этот непростой текст и ознакомиться со статьёй. Для тех, кто занимается данными, это будет очень полезно и весьма интересно.

Евгений Черный

Немало компаний инвестируют в следующее поколение Data Lake с надеждой упростить доступ к данным в масштабе всей компании и предоставить бизнесу инсайты и возможность принимать качественные решения автоматически. Но текущие подходы к построению платформ данных имеют схожие проблемы, которые не позволяют достигнуть поставленных целей. Чтобы решить эти проблемы нам необходимо отказаться от парадигмы централизованного Data Lake (или его предшественника – хранилища данных). И перейти к парадигме, основанной на современной распределённой архитектуре: рассматривать бизнес-домены как приоритет первого уровня, применять платформенное мышление для создания инфраструктуры с возможностью самообслуживания и воспринимать данные как продукт.

Читать полностью »

Клиентоориентированный Data Lake в игровой компании

2019-12-12 в 13:42, admin, рубрики: big data, data lake, open source, python, Блог компании Mail.Ru Group, хранилища данных

Клиентоориентированный Data Lake в игровой компании - 1
Источник

Привет! Меня зовут Максим Пчелин, и я руковожу разработкой BI-DWH в MyGames (игровое подразделение Mail.ru Group). В этой статье я расскажу о том, как и зачем мы строили клиентоориентированное DataLake-хранилище.

Статья состоит из трех частей. Сперва я расскажу, почему мы решили реализовывать DataLake. Во второй части я опишу, какие технологии и решения мы используем, чтобы хранилище могло работать и наполняться данными. И в третьей части опишу, что мы делаем для улучшения качества наших сервисов.
Читать полностью »

Data Mesh: как работать с данными без монолита

2019-11-13 в 15:37, admin, рубрики: big data, data, data lake, data mesh, DDD, Dodo Pizza Engineering, domain-driven design, Блог компании Dodo Pizza Engineering, данные, хранение данных

Привет! Мы в Dodo Pizza Engineering очень любим данные (а кто их сейчас не любит?). Сейчас будет история о том, как накопить все данные мира Dodo Pizza и дать любому сотруднику компании удобный доступ к этому массиву данных. Задача под звёздочкой: сохранить нервы команды Data Engineering.

Data Mesh: как работать с данными без монолита - 1 Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «data lake»

apache iceberg и его философия

философия iceberg

Платформа данных на минималках. Часть 1: проблемы Data Lake и роль Iceberg

Озеро для дата-склада: как мы нырнули в новые методы хранения данных и что из этого вышло

Data driven на практике: с чего начать, как избежать ошибок и эффективно применять

Что в глубинах Data Lake? Строим архитектуру, укладываем слои, распределяем ответственность

ClickHouse: путь джедая, искавшего дом для своих данных

Как мы искали неработающие датчики на «УРАЛХИМЕ» (первый проект Data Lake)

Переход от монолитного Data Lake к распределённой Data Mesh

Клиентоориентированный Data Lake в игровой компании

Data Mesh: как работать с данными без монолита