- PVSM.RU - https://www.pvsm.ru -

Цифровая экономика и экосистема R

Если смотреть прессу, словосочетание «цифровая экономика» ожидается одним из популярных в ближайшие несколько лет.

Цифровая экономика и экосистема R - 1

Но чтобы от перейти от слов к делу и действительно совершить цифровой скачок необходимо пересмотреть подходы и используемые инструменты. В рамках настоящей публикации, являющейся продолжением предыдущих публикаций [1], планирую кратко проиллюстрировать, тезис о том, что применение в бизнесе R экосистемы прекрасно вписывается в задачу перехода к цифровой экономике.

Почему необходимы новые подходы и инструменты?

  • Многократное увеличение объемов данных
  • Многократное увеличение источников данных
  • Многократное увеличение форматов обмена
  • Работа с неструктурированными данными
  • Смещение фокуса от исторического анализа к научному прогнозированию
  • Акцент на визуализацию и удобства восприятия
  • Многократное снижение времени на принятие решения вплоть до работы в режиме «реального времени»

High Level Design (HLD) аналитической системы на базе R

В эволюционного развития различных задач были пересмотрены различные методики и современные open-source средства. В результате сформировался достаточно универсальный стек общего назначения, общая архитектура которого выглядит следующим образом:

Цифровая экономика и экосистема R - 2

Ключевые компоненты решения

  • RStudio — аналитическая экосистема (импорт, обработка, визуализация) на основе платформы R (https://www.rstudio.com/ [2])
  • Yandex ClickHouse — сверхбыстрая колоночно-ориентированная БД, оптимизированная для работы с временнЫми данными (https://clickhouse.yandex/ [3])
  • Appache Drill — платформа для обеспечения унифицированного SQL доступа к BigData & NoSQL данным (https://drill.apache.org/ [4])
  • Appache Airflow — оркестратор (https://airflow.incubator.apache.org/ [5])
  • «ETL» — платформа для приема разнообразной структурированной информации в относительно «чистой» форме с применением языка Go (https://golang.org/ [6])

В зависимости от предметной области, типов и масштабов данных могут использоваться не все элементы стека. Но какая бы задачи ни была, аналитическим ядром, а также лицом системы с точки зрения пользователя остается R & Shiny соотвественно.

Ожидаемые бизнесом выходы от аналитической системы

Как правило, большинство людей ожидают увидеть «отчеты», не детализируя, что именно они в это слово вкладывают. Экосистема R позволяет получать много больше типичных ожиданий:

  • генерация штатных отчетов в виде HTML (с элементами интерактива в виде встроенных htmlWidgets);
  • генерация штатных отчетов в виде PDF;
  • генерация различных выгрузок в различных форматах для M2M взаимодействия;
  • интерактивные аналитические приложения (дашборды);
  • элементы операционной аналитики (автоматическое внесение изменений в другие ИТ системы на основе полученных вычислений).

Средой существования всех упомянутых типов отчетов и АРМ является Shiny ServerConnect Server. В платной или бесплатной редакции — зависит от требований, которые выходят за рамки аналитики и определяются требованиями по нагрузке, безопасности, централизованному управлению.

5 бизнес-аргументов в пользу приведенного HLD

  1. Быстрые сроки ввода в эксплуатацию и минимальная стоимость владения за счет применения передовых апробированных open-source инструментов.
  2. Широчайший спектр функциональных возможностей по импорту, обработке и визуализации.
  3. Унифицированные высокопроизводительные технологии для данных различного масштаба данных (миллионы – сотни триллионов строк гигабайты – петабайты данных).
  4. Использование открытых общедоступных пакетов (>10 тыс штук), в том числе в части:
    • алгоритмической обработки, включая методы машинного обучения;
    • визуализации и создания интерактивных аналитических дашбордов на базе технологий HTML5+CSS+JS.
  5. Наличие «enterprise compliant» коммерческих версий доступных по модели подписки для ключевых open-source компонент.

P.S.
Практика раз за разом показывает, что цифровые преобразования упираются отнюдь не в возможности инструментов (open-source), а в неготовность людей менять восприятие, изучать новое, мыслить стратегически или просто страх перемен.
Примером подобного типового пожелания является наличие «визуального» конструктора, так, чтобы только мышкой, без какого-либо программирования можно было получить результат неограниченной сложности. Однако, это красивое требование, культивируемое представителями BI визуализации, очень плохо сочетается с самим содержанием цифровых перемен которые ожидают человечество.

Парадокс этого требования вполне прозрачен. Повсеместно используя машины в качестве помощников крайне затруднительно общаться с ними с помощю ограниченного языка жестов или словаря Эллочки-людоедки. Даже из теории информации следует, что двумя-тремя кликами очень мало чего можно передать, если только это не код заранее досконально согласованного действия.

В цифровом мире язык програмимирования становится таким же важным знанием, как язык международного общения. Интересно, что в отдельных западных компаниях, воспринимавшихся ранее как классическое производство, программирование становится важным навыком даже для менеджеров. Прекрасный пример подобной трансформации — компания GE, подразделеие GE Digital [7]. Ролик — Discover GE Digital: The Digital Industrial Company [8]

Автор: Илья Шутов

Источник [9]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/data-mining/262215

Ссылки в тексте:

[1] предыдущих публикаций: https://habrahabr.ru/post/326238/

[2] https://www.rstudio.com/: https://www.rstudio.com/

[3] https://clickhouse.yandex/: https://clickhouse.yandex/

[4] https://drill.apache.org/: https://drill.apache.org/

[5] https://airflow.incubator.apache.org/: https://airflow.incubator.apache.org/

[6] https://golang.org/: https://golang.org/

[7] GE Digital: https://www.ge.com/digital/

[8] Discover GE Digital: The Digital Industrial Company: https://www.youtube.com/watch?v=IdGw85CjnMA

[9] Источник: https://habrahabr.ru/post/335576/?utm_source=habrahabr&utm_medium=rss&utm_campaign=best