Привет!
Меня зовут Дмитрий и я работаю инженером данных.
Рубрика «etl»
ETL-проект для начинающих Data Engineers: От почтового сервера до Greenplum
2024-10-08 в 12:15, admin, рубрики: data engineering, etl, ETL-процессы, python, sqlКонсолидация баз данных: этапы, методы и примеры
2023-05-02 в 9:00, admin, рубрики: data engineering, etl, ruvds_статьи, Администрирование баз данных, базы данных, Блог компании RUVDS.com, виртуализация данных, консолидация баз данных, хранение данных, хранилище данныхСейчас во всём мире объёмы данных растут с невероятной скоростью, и чтобы эффективно использовать их потенциал, требуется правильное хранение и управление информацией. Одним из наиболее эффективных способов решения этой проблемы является консолидация баз данных. Но что это такое и как её правильно реализовать? В этой статье мы разберёмся, какую пользу может принести консолидация баз данных и как её провести на практике. Если вы хотите оптимизировать свою работу с данными, то эта статья для вас!Читать полностью »
Git scraping: методика бесплатного хостинга не совсем статических сайтов
2023-02-04 в 1:42, admin, рубрики: beatport, etl, github, github actions, github pages, python, Rust, yaml, Программирование, Разработка веб-сайтов, хостинг, шаблонизаторНи для кого не секрет, что, используя GitHub Pages, вы можете бесплатно разместить свой статический веб-сайт в сети Интернет. 1 Гбайт доступного пространства, SSL-сертификат, возможность привязать собственный домен — разве не сказка? Но что делать, если вам необходимо, чтобы содержимое вашего статического ресурса периодически обновлялось? Допустим, несколько раз в час.
Loginom+BI2BUSINESS+Visiology: технологическое партнерство — путь российского BI?
2022-06-25 в 12:03, admin, рубрики: BI2BUSINESS, big data, Business Intelligence, etl, Loginom, visiology, Анализ и проектирование систем, Блог компании Visiology, визуализация данных, Внедрение, миграция проекта, партнерство, российский bi, российское по, управление проектамиСегодня у нас есть отличный повод снова вернуться к вопросу развития российского BI. Совместное решение от Loginom и BI2BUSINESS, по заявлениям его создателей, позволяет упростить внедрение BI на базе платформы Visiology для целого ряда часто встречающихся задач. Подробности о новой интеграции специалисты обещают раскрыть в ходе вебинара, а несколько мыслей о важности этого события вы найдете под катом.
Как я сделал веб-фреймворк без MVC — Pipe Framework
2021-02-23 в 11:03, admin, рубрики: api, backend, etl, extractor, loader, microframework, pipe, python, python3, transformer, werkzeug, Разработка веб-сайтовПроработав фулстек разработчиком около 10 лет, я заметил одну странность.
Я ни разу не встретил не MVC веб-фреймворк. Да, периодически встречались вариации, однако общая структура всегда сохранялась:
- Codeigniter — мой первый фреймворк, MVC
- Kohana — MVC
- Laravel — MVC
- Django — создатели слегка подменили термины, назвав контроллер View, а View Template'ом, но суть не изменилась
- Flask — микрофреймворк, по итогу все равно приходящий к MVC паттерну
Конечно, с моим мнением можно поспорить, можно продолжить перечислять, однако суть не в этом.
ETL процесс получения данных из электронной почты в Apache Airflow
2020-04-04 в 15:19, admin, рубрики: Apache Airflow, data engineering, etl, python
Как бы сильно не развивались технологии, за развитием всегда тянется вереница устаревших подходов. Это может быть обусловлено плавным переходом, человеческим фактором, технологическими необходимостями или чем-то другим. В области обработки данных наиболее показательными в этой части являются источники данных. Как бы мы не мечтали от этого избавиться, но пока часть данных пересылается в мессенджерах и электронных письмах, не говоря и про более архаичные форматы. Приглашаю под кат разобрать один из вариантов для Apache Airflow, иллюстрирующий, как можно забирать данные из электронных писем.
Мониторинг ETL-процессов в маленьком хранилище данных
2019-08-30 в 15:49, admin, рубрики: etl, ETL-процессы, monitoring, sql, sqlite, хранилища данных, хранилище данныхМногие используют специализированные инструменты для создания процедур извлечения, трансформации и загрузки данных в реляционные базы данных. Процесс работы инструментов логируется, ошибки фиксируются.
В случае ошибки в логе содержится информация о том, что инструменту не удалось выполнить задачу и какие модули (часто это java) где остановились. В последних строках можно найти ошибку базы данных, например, нарушение уникального ключа таблицы.
Чтобы ответить на вопрос, какую роль играет информация об ошибках ETL, я классифицировал все проблемы, произошедшие за последние два года в немаленьком хранилище.
Apache NiFi: что это такое и краткий обзор возможностей
2018-12-06 в 7:00, admin, рубрики: Apache, big data, etl, Hadoop, Блог компании Ростелеком, хранение данныхСегодня на тематических зарубежных сайтах о Big Data можно встретить упоминание такого относительно нового для экосистемы Hadoop инструмента как Apache NiFi. Это современный open source ETL-инструмент. Распределенная архитектура для быстрой параллельной загрузки и обработки данных, большое количество плагинов для источников и преобразований, версионирование конфигураций – это только часть его преимуществ. При всей своей мощи NiFi остается достаточно простым в использовании.
Мы в «Ростелекоме» стремимся развивать работу с Hadoop, так что уже попробовали и оценили преимущества Apache NiFi по сравнению с другими решениями. В этой статье я расскажу, чем нас привлек этот инструмент и как мы его используем.
Читать полностью »
Облачные сервисы Amazon и анализ инвестиционного портфеля
2018-10-15 в 16:13, admin, рубрики: Amazon Web Services, AWS, big data, data mining, etl, python, sql, акции, Анализ и проектирование систем, Облачные вычисления, облачные сервисы, отчеты, Программирование, финансы в IT, ценные бумагиВ последнее время на фондовых рынках наблюдается высокая волатильность, когда, например, стабильная бумага известной компании может враз потерять сразу несколько процентов на новостях о санкциях против ее руководства или наоборот взлететь до небес на позитивном отчете и ожиданиях инвесторов о сверхприбыльных дивидендах.
Как же определить, принесло ли владение данной ценной бумагой доход или одни лишь убытки и разочарование?
В этой статье я расскажу Вам как определять и визуализировать скорректированный финансовый результат по ценным бумагам.
На примере клиентской отчетности Открытие Брокер мы рассмотрим парсинг и консолидацию брокерских отчетов для фондового рынка, построение архитектуры облачной отчетной системы с последующим простым и удобным анализом в AWS Quicksight.
Читать полностью »