Рубрика «big data»

ClickHouse: MergeTree с нуля

2026-02-18 в 14:15, admin, рубрики: big data, clickhouse, data engineering, MergeTree, sql, tutorial, СУБД, хранилища данных

Привет!

Меня зовут Натаров Иван. Я занимаюсь вопросами обработки, анализа и визуализации данных.

ClickHouse сегодня стал стандартом де-факто для аналитических задач, но часто начинающие специалисты тратят слишком много времени на погружение в технологию. Документация зачастую дает либо слишком поверхностное объяснение, либо уходит в технические детали, которые сложны для восприятия новичками.

В этой статье мы разберем фундамент ClickHouse - движок MergeTreeЧитать полностью »

Аналитическая инфраструктура для сбора и исследования данных Steam: архитектура, пайплайны, результаты

2025-12-23 в 13:16, admin, рубрики: big data, Steam, Steam Web API, анализ данных

Steam — одна из крупнейших платформ цифровой дистрибуции игр, и одновременно огромный источник данных: каталоги игр, отзывы, достижения, ценовые метрики, активность игроков, региональные различия и многое другое. Однако прямого доступа к агрегированным данным у исследователей нет — их необходимо собирать вручную через Steam Web API и сторонние сервисы.

В этом проекте мы разработали полноценный программный комплекс для автоматизированного сбора, хранения и анализа данных SteamЧитать полностью »

Расширяем функционал Apache NiFi 2.0: руководство к написанию своего процессора

2025-11-23 в 16:31, admin, рубрики: apache nifi, big data, etl, java

Привет!

Потоки данных между системами стабильно увеличиваются, и в обозримом будущем эта тенденция вряд ли изменится, что создает постоянную потребность в инструментах для работы с данными.

Apache NiFi — программный продукт с открытым исходным кодом, написанный на языке Java, предназначенный для автоматизации потоков данных между системами. Главная его задача: организовывать ETL‑процессы. На GitHub у Apache NiFi имеется 5.9 тысяч звезд.

Для тех, кто не знает, что такое Apache NiFi советую прочитать отличную статью.

Читать полностью »

Русские инженеры разработали датчик, который спасает химзавод от аварий и экономит 320 млн рублей

2025-11-21 в 13:00, admin, рубрики: big data, IIoT, LoRaWAN, Беспроводные технологии, предиктивная аналитика, промышленная автоматизация, Промышленный IoT, сибур цифровой, цифровое производство

У вас дома есть умная розетка? Или датчик протечки воды под раковиной? Если есть — вы уже знаете, что такое интернет вещей. Небольшой девайс висит на стене, следит за температурой или влажностью, а когда что-то идёт не так — шлет уведомление на смартфон.

Теперь представьте то же самое, но не в квартире, а на нефтехимическом заводе площадью в несколько квадратных километров. Там не десять розеток, а тысячи труб, насосов, реакторов. И за каждым нужно следить. Именно для этого и придумали промышленный интернет вещей — IIoT.

Читать полностью »

Вы пользуетесь умным домом? Тогда вас шокирует, как это работает на нефтехимзаводе

Читать полностью »

Как беспроводные датчики окупились за один сезон морозов

Читать полностью »

7 SQL-запросов, которые решают 90% всех задач на работе

2025-09-16 в 9:05, admin, рубрики: big data, data base, sql, timeweb_статьи, аналитика, базы данных, запросы

Каждый день одно и то же. Открываешь клиент базы данных, чтобы что-то проверить, посчитать или найти. И снова пишешь почти тот же SELECT, что и вчера, с тем же WHERE и JOIN. Знакомо?

SQL в большинстве случаях не требует сложные 100-строчные запросы с вложенными подзапросами на три уровня глубины. Чаще всего нам нужны простые, отточенные и, главное, эффективные конструкции.

В этой статье я собрал 7 таких запросов-«рабочих лошадок». Это не какой-то там справочник, а готовая шпаргалка для реальных задач.

Прежде чем перейти к запросам, запомните главное правило любого UPDATE или DELETEЧитать полностью »

Умный аналитик для ритейла: ИИ на службе бизнеса

2025-09-12 в 11:16, admin, рубрики: AI, BI, big data, Business Intelligence, ml, анализ данных, бизнес-анализ, ии-агенты, ритейл, ритейлеры

Аналитика в ритейле всегда была непростой задачей. Чем больше точек продаж и каналов, тем сложнее бизнесу ориентироваться в данных. Отчеты из ERP, CRM, e-com площадок, маркетинговых платформ и POS-систем часто сводятся вручную, BI-отделы перегружены, а бизнес-пользователи ждут ответа на свои вопросы неделями.

При этом если запрос бизнеса не приоритетный, то в бэклоге команды разработки он может висеть месяцами – сталкивался с подобным неоднократно. (А как у вас? Напишите, интересно как с этим обстоят дела сейчас)

Читать полностью »

Путь от школьной математики к Data Science и системной инженерии: как я учился строить продукты

2025-08-29 в 7:17, admin, рубрики: AI, big data, data science, mlops, автоматизация, инженерия данных, машинное обучение, Системная инженерия

Историиуспеха часто подаются слишком гладко. Но за каждым «сегодня я работаю в Data Science» всегда стоит длинный и запутанный маршрут.

Я хочу поделиться своей дорогой — не как учебником, а как историей, которая, возможно, поможет тем, кто сейчас только ищет направление или сомневается, стоит ли идти в аналитику, инженерию или AI.

Начало: школьный выбор и первая любовь к системам

Моя отправная точка — школа. Учился я в физико‑математическом классе, где нас приучали к структурному мышлению и логике. Это был мой первый контакт с идеей, что за любым хаосом всегда можно найти систему.

Читать полностью »

WAP паттерн в data-engineering

2025-08-16 в 6:15, admin, рубрики: big data, BigData, data engineering, data quality, data warehouse, DataLake, etl, warehouse

В русскоязычной части интернета присутствует много статей по теме паттернов разработки, однако я не нашел никакой информации о паттернах работы с данными.

В данной статье я хочу рассказать о паттерне Write-Audit-Publish, о предпосылках его появления, а также наглядно рассмотреть как он работает.

История зарождения

С момента появления концепции data lake, компании старались собирать как можно данных, иногда не слишком задумываясь об их качестве. Появилось четкое понимание, что данные "когда-нибудь" могут быть использованы. Так, согласно исследованиям market.us Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «big data»

ClickHouse: MergeTree с нуля

Аналитическая инфраструктура для сбора и исследования данных Steam: архитектура, пайплайны, результаты

Расширяем функционал Apache NiFi 2.0: руководство к написанию своего процессора

Русские инженеры разработали датчик, который спасает химзавод от аварий и экономит 320 млн рублей

Вы пользуетесь умным домом? Тогда вас шокирует, как это работает на нефтехимзаводе

Как беспроводные датчики окупились за один сезон морозов

7 SQL-запросов, которые решают 90% всех задач на работе

Умный аналитик для ритейла: ИИ на службе бизнеса

Путь от школьной математики к Data Science и системной инженерии: как я учился строить продукты

Начало: школьный выбор и первая любовь к системам

WAP паттерн в data-engineering

История зарождения