Сегодня у нас есть отличный повод снова вернуться к вопросу развития российского BI. Совместное решение от Loginom и BI2BUSINESS, по заявлениям его создателей, позволяет упростить внедрение BI на базе платформы Visiology для целого ряда часто встречающихся задач. Подробности о новой интеграции специалисты обещают раскрыть в ходе вебинара, а несколько мыслей о важности этого события вы найдете под катом.
Рубрика «etl»
Loginom+BI2BUSINESS+Visiology: технологическое партнерство — путь российского BI?
2022-06-25 в 12:03, admin, рубрики: BI2BUSINESS, big data, Business Intelligence, etl, Loginom, visiology, Анализ и проектирование систем, Блог компании Visiology, визуализация данных, Внедрение, миграция проекта, партнерство, российский bi, российское по, управление проектамиКак я сделал веб-фреймворк без MVC — Pipe Framework
2021-02-23 в 11:03, admin, рубрики: api, backend, etl, extractor, loader, microframework, pipe, python, python3, transformer, werkzeug, Разработка веб-сайтовПроработав фулстек разработчиком около 10 лет, я заметил одну странность.
Я ни разу не встретил не MVC веб-фреймворк. Да, периодически встречались вариации, однако общая структура всегда сохранялась:
- Codeigniter — мой первый фреймворк, MVC
- Kohana — MVC
- Laravel — MVC
- Django — создатели слегка подменили термины, назвав контроллер View, а View Template'ом, но суть не изменилась
- Flask — микрофреймворк, по итогу все равно приходящий к MVC паттерну
Конечно, с моим мнением можно поспорить, можно продолжить перечислять, однако суть не в этом.
ETL процесс получения данных из электронной почты в Apache Airflow
2020-04-04 в 15:19, admin, рубрики: Apache Airflow, data engineering, etl, pythonКак бы сильно не развивались технологии, за развитием всегда тянется вереница устаревших подходов. Это может быть обусловлено плавным переходом, человеческим фактором, технологическими необходимостями или чем-то другим. В области обработки данных наиболее показательными в этой части являются источники данных. Как бы мы не мечтали от этого избавиться, но пока часть данных пересылается в мессенджерах и электронных письмах, не говоря и про более архаичные форматы. Приглашаю под кат разобрать один из вариантов для Apache Airflow, иллюстрирующий, как можно забирать данные из электронных писем.
Мониторинг ETL-процессов в маленьком хранилище данных
2019-08-30 в 15:49, admin, рубрики: etl, ETL-процессы, monitoring, sql, sqlite, хранилища данных, хранилище данныхМногие используют специализированные инструменты для создания процедур извлечения, трансформации и загрузки данных в реляционные базы данных. Процесс работы инструментов логируется, ошибки фиксируются.
В случае ошибки в логе содержится информация о том, что инструменту не удалось выполнить задачу и какие модули (часто это java) где остановились. В последних строках можно найти ошибку базы данных, например, нарушение уникального ключа таблицы.
Чтобы ответить на вопрос, какую роль играет информация об ошибках ETL, я классифицировал все проблемы, произошедшие за последние два года в немаленьком хранилище.
Apache NiFi: что это такое и краткий обзор возможностей
2018-12-06 в 7:00, admin, рубрики: Apache, big data, etl, Hadoop, Блог компании Ростелеком, хранение данныхСегодня на тематических зарубежных сайтах о Big Data можно встретить упоминание такого относительно нового для экосистемы Hadoop инструмента как Apache NiFi. Это современный open source ETL-инструмент. Распределенная архитектура для быстрой параллельной загрузки и обработки данных, большое количество плагинов для источников и преобразований, версионирование конфигураций – это только часть его преимуществ. При всей своей мощи NiFi остается достаточно простым в использовании.
Мы в «Ростелекоме» стремимся развивать работу с Hadoop, так что уже попробовали и оценили преимущества Apache NiFi по сравнению с другими решениями. В этой статье я расскажу, чем нас привлек этот инструмент и как мы его используем.
Читать полностью »
Облачные сервисы Amazon и анализ инвестиционного портфеля
2018-10-15 в 16:13, admin, рубрики: Amazon Web Services, AWS, big data, data mining, etl, python, sql, акции, Анализ и проектирование систем, Облачные вычисления, облачные сервисы, отчеты, Программирование, финансы в IT, ценные бумагиВ последнее время на фондовых рынках наблюдается высокая волатильность, когда, например, стабильная бумага известной компании может враз потерять сразу несколько процентов на новостях о санкциях против ее руководства или наоборот взлететь до небес на позитивном отчете и ожиданиях инвесторов о сверхприбыльных дивидендах.
Как же определить, принесло ли владение данной ценной бумагой доход или одни лишь убытки и разочарование?

В этой статье я расскажу Вам как определять и визуализировать скорректированный финансовый результат по ценным бумагам.
На примере клиентской отчетности Открытие Брокер мы рассмотрим парсинг и консолидацию брокерских отчетов для фондового рынка, построение архитектуры облачной отчетной системы с последующим простым и удобным анализом в AWS Quicksight.
Читать полностью »
MongoDB и исследование рынка ИТ-вакансий
2018-09-07 в 13:49, admin, рубрики: data mining, etl, mongodb, nosql, python, sql, анализ данных, вакансииВы когда-нибудь анализировали вакансии?
Задавались вопросом, в каких технологиях наиболее сильна потребность рынка труда на текущий момент? Месяц назад? Год назад?
Как часто открываются новые вакансии Java-разработчиков в определенном районе Вашего города и как активно они закрываются?
В этой статье я расскажу Вам, как можно достичь желаемого результата и построить отчетную систему по интересующей нас теме. Поехали!

ETL: качественные данные для принятия управленческих решений
2018-05-22 в 9:30, admin, рубрики: BI, CDC, Change Data Capture, etl, IBM DataStage, mdm-система, Universal Serial Bus, бизнес-анализ, Блог компании RedSys, госсектор, СУБДОрганизационные изменения, рано или поздно происходящие в жизни любой компании, чаще всего влекут за собой необходимость интеграции различных информационных систем. Для чего нужна интеграция? Она необходима для того, чтобы разные системы могли использовать единое информационное пространство, осуществлять обмен данными, хранить, анализировать и обрабатывать их для последующего принятия управленческих и оперативных решений. Если принимать решения на основании данных, полученных только из одной системы, рано или поздно возникнет хаос, прежде всего по причине разнородного представления и детализации одних и тех же данных в различных системах, наличия ошибок, вызванных человеческим фактором и т.д. Как показывает опыт, наиболее эффективным способом хранения информации для ее последующего анализа и обработки, являются аналитические хранилища с витринами данных, на основе которых пользователь может осуществлять любые аналитические запросы и получать те или иные необходимые показатели.
Введение в Data Engineering. ETL, схема «звезды» и Airflow
2018-05-14 в 9:18, admin, рубрики: airflow, big data, data engineering, data mining, etl, sql, Администрирование баз данных, базы данных, Блог компании New Professions LabСпособность data scientist-а извлекать ценность из данных тесно связана с тем, насколько развита инфраструктура хранения и обработки данных в компании. Это значит, что аналитик должен не только уметь строить модели, но и обладать достаточными навыками в области data engineering, чтобы соответствовать потребностям компании и браться за все более амбициозные проекты.
При этом, несмотря на всю важность, образование в сфере data engineering продолжает оставаться весьма ограниченным. Мне повезло, поскольку я успел поработать со многими инженерами, которые терпеливо объясняли мне каждый аспект работы с данными, но не все обладают такой возможностью. Именно поэтому я решил написать эту статью — введение в data engineering, в которой я расскажу о том, что такое ETL, разнице между SQL- и JVM-ориентированными ETL, нормализации и партиционировании данных и, наконец, рассмотрим пример запроса в Airflow.