replyr — сокращение от REmote PLYing of big data for R (удаленная обработка больших данных в R).
Почему стоит попробовать replyr? Потому что он позволяет применять стандартные рабочие подходы к удаленным данным (базы данных или Spark).
Можно работать так же, как и с локальным data.frame. replyr предоставляет такие возможности:
- Обобщение данных:
replyr_summary(). - Объединение таблиц:
replyr_union_all(). - Связывание таблиц по строкам:
replyr_bind_rows(). - Использование функций разделения, объединения, комбинирования (
dplyr::do()):replyr_split(),replyr::gapply(). - Аггрегирование/распределение:
replyr_moveValuesToRows()/replyr_moveValuesToColumns(). - Отслеживание промежуточных результатов.
- Контроллер объединений.
Скорее всего, вы всё это делаете с данными локально, поэтому такие возможности сделают работу со Spark и sparklyr гораздо легче.
replyr — продукт коллективного опыта использования R в прикладных решениях для многих клиентов, сбора обратной связи и исправления недостатков.
Примеры ниже.
Читать полностью »
