Цифровая экономика и экосистема R

в 8:55, , рубрики: big data, data mining, data science, R

Если смотреть прессу, словосочетание «цифровая экономика» ожидается одним из популярных в ближайшие несколько лет.

Цифровая экономика и экосистема R - 1

Но чтобы от перейти от слов к делу и действительно совершить цифровой скачок необходимо пересмотреть подходы и используемые инструменты. В рамках настоящей публикации, являющейся продолжением предыдущих публикаций, планирую кратко проиллюстрировать, тезис о том, что применение в бизнесе R экосистемы прекрасно вписывается в задачу перехода к цифровой экономике.

Почему необходимы новые подходы и инструменты?

  • Многократное увеличение объемов данных
  • Многократное увеличение источников данных
  • Многократное увеличение форматов обмена
  • Работа с неструктурированными данными
  • Смещение фокуса от исторического анализа к научному прогнозированию
  • Акцент на визуализацию и удобства восприятия
  • Многократное снижение времени на принятие решения вплоть до работы в режиме «реального времени»

High Level Design (HLD) аналитической системы на базе R

В эволюционного развития различных задач были пересмотрены различные методики и современные open-source средства. В результате сформировался достаточно универсальный стек общего назначения, общая архитектура которого выглядит следующим образом:

Цифровая экономика и экосистема R - 2

Ключевые компоненты решения

  • RStudio — аналитическая экосистема (импорт, обработка, визуализация) на основе платформы R (https://www.rstudio.com/)
  • Yandex ClickHouse — сверхбыстрая колоночно-ориентированная БД, оптимизированная для работы с временнЫми данными (https://clickhouse.yandex/)
  • Appache Drill — платформа для обеспечения унифицированного SQL доступа к BigData & NoSQL данным (https://drill.apache.org/)
  • Appache Airflow — оркестратор (https://airflow.incubator.apache.org/)
  • «ETL» — платформа для приема разнообразной структурированной информации в относительно «чистой» форме с применением языка Go (https://golang.org/)

В зависимости от предметной области, типов и масштабов данных могут использоваться не все элементы стека. Но какая бы задачи ни была, аналитическим ядром, а также лицом системы с точки зрения пользователя остается R & Shiny соотвественно.

Ожидаемые бизнесом выходы от аналитической системы

Как правило, большинство людей ожидают увидеть «отчеты», не детализируя, что именно они в это слово вкладывают. Экосистема R позволяет получать много больше типичных ожиданий:

  • генерация штатных отчетов в виде HTML (с элементами интерактива в виде встроенных htmlWidgets);
  • генерация штатных отчетов в виде PDF;
  • генерация различных выгрузок в различных форматах для M2M взаимодействия;
  • интерактивные аналитические приложения (дашборды);
  • элементы операционной аналитики (автоматическое внесение изменений в другие ИТ системы на основе полученных вычислений).

Средой существования всех упомянутых типов отчетов и АРМ является Shiny ServerConnect Server. В платной или бесплатной редакции — зависит от требований, которые выходят за рамки аналитики и определяются требованиями по нагрузке, безопасности, централизованному управлению.

5 бизнес-аргументов в пользу приведенного HLD

  1. Быстрые сроки ввода в эксплуатацию и минимальная стоимость владения за счет применения передовых апробированных open-source инструментов.
  2. Широчайший спектр функциональных возможностей по импорту, обработке и визуализации.
  3. Унифицированные высокопроизводительные технологии для данных различного масштаба данных (миллионы – сотни триллионов строк гигабайты – петабайты данных).
  4. Использование открытых общедоступных пакетов (>10 тыс штук), в том числе в части:
    • алгоритмической обработки, включая методы машинного обучения;
    • визуализации и создания интерактивных аналитических дашбордов на базе технологий HTML5+CSS+JS.
  5. Наличие «enterprise compliant» коммерческих версий доступных по модели подписки для ключевых open-source компонент.

P.S.
Практика раз за разом показывает, что цифровые преобразования упираются отнюдь не в возможности инструментов (open-source), а в неготовность людей менять восприятие, изучать новое, мыслить стратегически или просто страх перемен.
Примером подобного типового пожелания является наличие «визуального» конструктора, так, чтобы только мышкой, без какого-либо программирования можно было получить результат неограниченной сложности. Однако, это красивое требование, культивируемое представителями BI визуализации, очень плохо сочетается с самим содержанием цифровых перемен которые ожидают человечество.

Парадокс этого требования вполне прозрачен. Повсеместно используя машины в качестве помощников крайне затруднительно общаться с ними с помощю ограниченного языка жестов или словаря Эллочки-людоедки. Даже из теории информации следует, что двумя-тремя кликами очень мало чего можно передать, если только это не код заранее досконально согласованного действия.

В цифровом мире язык програмимирования становится таким же важным знанием, как язык международного общения. Интересно, что в отдельных западных компаниях, воспринимавшихся ранее как классическое производство, программирование становится важным навыком даже для менеджеров. Прекрасный пример подобной трансформации — компания GE, подразделеие GE Digital. Ролик — Discover GE Digital: The Digital Industrial Company

Автор: Илья Шутов

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js