Эта статья шаг за шагом покажет, как совместить несколько ggplot-графиков на одной или нескольких иллюстрациях, с помощью вспомогательных функций, доступных в пакетах R ggpubr, cowplot и gridExtra. Также опишем, как экспортировать полученные графики в файл.
Читать полностью »
Рубрика «R» - 10
ggplot2: как легко совместить несколько графиков в одном, часть 1
2017-08-27 в 17:46, admin, рубрики: ggplot2, R, визуализация, визуализация данныхЦифровая экономика и экосистема R
2017-08-14 в 8:55, admin, рубрики: big data, data mining, data science, RЕсли смотреть прессу, словосочетание «цифровая экономика» ожидается одним из популярных в ближайшие несколько лет.

Но чтобы от перейти от слов к делу и действительно совершить цифровой скачок необходимо пересмотреть подходы и используемые инструменты. В рамках настоящей публикации, являющейся продолжением предыдущих публикаций, планирую кратко проиллюстрировать, тезис о том, что применение в бизнесе R экосистемы прекрасно вписывается в задачу перехода к цифровой экономике.
Школа Данных: хорошее мы сделали еще лучше
2017-08-11 в 7:35, admin, рубрики: big data, data mining, kaggle, R, sna, Алгоритмы, алгоритмы обработки данных, анализ данных, анализ социальных сетей, Блог компании Школа Данных, машинное обучение, рекомендательные системы, школа данных
Привет! Надеемся, этим летом не смотря на плохую погоду Вам удалось отдохнуть. Близится осень — самое время поучиться. С учетом предыдущих курсов — мы сильно обновили нашу программу — добавили множество практических занятий, больше говорим про практические кейсы. В этом посте хотелось бы подробно рассказать про все нововведения. Для тех, у кого мало времени:
- Снизилась цена
- 8 дополнительных практических семинаров
- Дополнительные занятия про бизнес
- Занятия по Deep Learning
- Доступно удаленное обучение
- Плюс 2 занятия в Вводном курсе
R c H2O на Spark в HDInsight
2017-08-07 в 6:50, admin, рубрики: "вода, azure, big data, h2o, hdinsight, Microsoft Azure, ml, R, spark, вода, высокая производительность, кругом вода", машинное обучение
H2O – библиотека машинного обучения, предназначенная как для локальных вычислений, так и с использованием кластеров, создаваемых непосредственно средствами H2O или же работая на кластере Spark. Интеграция H2O в кластеры Spark, создаваемые в Azure HDInsight, была добавлена недавно и в этой публикации (являющейся дополнением моей прошлой статьи: R и Spark) рассмотрим построение моделей машинного обучения используя H2O на таком кластере и сравним (время, метрика) его с моделями предоставляемых sparklyr, действительно ли H2O киллер-приложение для Spark?
R и большие данные: использование Replyr
2017-07-29 в 12:37, admin, рубрики: big data, dplyr, R, replyr, spark, sparklyr, Большие данные, метки: dplyrreplyr — сокращение от REmote PLYing of big data for R (удаленная обработка больших данных в R).
Почему стоит попробовать replyr? Потому что он позволяет применять стандартные рабочие подходы к удаленным данным (базы данных или Spark).
Можно работать так же, как и с локальным data.frame. replyr предоставляет такие возможности:
- Обобщение данных:
replyr_summary(). - Объединение таблиц:
replyr_union_all(). - Связывание таблиц по строкам:
replyr_bind_rows(). - Использование функций разделения, объединения, комбинирования (
dplyr::do()):replyr_split(),replyr::gapply(). - Аггрегирование/распределение:
replyr_moveValuesToRows()/replyr_moveValuesToColumns(). - Отслеживание промежуточных результатов.
- Контроллер объединений.
Скорее всего, вы всё это делаете с данными локально, поэтому такие возможности сделают работу со Spark и sparklyr гораздо легче.
replyr — продукт коллективного опыта использования R в прикладных решениях для многих клиентов, сбора обратной связи и исправления недостатков.
Примеры ниже.
Читать полностью »
Можно ли уехать из Клинцов? (data mining of blablacar.ru)
2017-07-17 в 6:43, admin, рубрики: BlaBlacar, data mining, data science, R, визуализация данных, метки: Визуализация данныхПарсинг сайта blablacar.ru и анализ пассажиропотока из г. Клинцы Брянской области с помощью языка программирования R.

Ловись Data большая и маленькая! (Краткий обзор курсов по Data Science от Cognitive Class)
2017-06-18 в 10:31, admin, рубрики: data science, IBM, R, курсы, обучение онлайн, статистика, Учебный процесс в ITВ последнее время все чаще натыкаюсь на упоминание о «Data Science» или по-нашему «Наука о данных». Не являюсь специалистом в области IT и на протяжении всей жизни не дружу с мат. анализом и статистикой, поэтому я достаточно долго проходил мимо этого вопроса и наверное, продолжал бы проходить стороной, но в какой-то момент любопытство взяло верх.
Итак Cognitive Class он же Big Data University от IBM (иногда сокращенно BDU) – портал с бесплатными курсами по тематике близкой к BIG Data и соответственно Data Science.
Хотите узнать, чему он может или не может Вас научить, тогда милости прошу под кат.
Анализ взаимосвязи навыков с помощью графов в R
2017-05-17 в 9:04, admin, рубрики: clustering, data mining, data science, dataviz, graph, R, R-projectИнтересно, но такая область как профессиональное развитие остается немного в стороне от шума из-за data science. Стартапы в сфере HRtech только начинают наращивать обороты и увеличивать свою долю, замещая традиционный подход в сфере работы с профессионалами или, теми, кто хочет стать профессионалом.
Сфера HRtech очень разнообразна и включает в себя автоматизацию найма сотрудников, развитие и коучинг, автоматизацию внутренних HR процедур, отслеживание рыночных зарплат, трекинг кандидатов, сотрудников и многое другое. Данное исследование помогает с помощью методов анализа данных ответить на вопрос как взаимосвязаны навыки, какие есть специализации, какие навыки более популярны, а какие навыки следует изучить следующим.
RMarkdown, R и ggplot
Данная статья не является ни документацией, ни рассказывает что-то принципиально новое, её стоит рассматривать как обзорную или как шпаргалку.
Преамбула
Конференция это прежде всего доклады, и далеко не последнее место занимает то, как оформлены слайды доклада.
Безусловно, есть докладчики, которые могут не смотря ни на что, провести доклад даже без единого слайда, но всё же они как правило хорошо дополняют повествование. Одним достаточно накидать мемасиков в доклад и дело готово, другим обязательно надо вставить код, причём на ассемблере (кто не в курсе ещё — JPoint — это конференция по java), и есть ещё те, кому надо показать графики. Впрочем встречается и их комбинация.
Пожалуй известные средства для создания слайдов это:
- PowerPoint, и вариации в лице LibreOffice Impress, Apple KeyNote
- облачные вариации с тем же подходом — Google Slides
- LaTeX
- и относительно новый (для меня) RMarkdown
Видеозаписи докладов конференции AI&BigDataLab за последние три года
2017-04-26 в 7:25, admin, рубрики: AI&BigDataLab, artificial intelligence, big data, data mining, Data Science Lab, FlyElephant, R, Блог компании FlyElephant, Большие данные, видеозаписи докладов, искусственный интеллект, конференция, машинное обучение
Через 2 недели, 13 мая в Одессе, команда FlyElephant будет проводить конференцию Data Science Lab. Это будет наша 4-я конференция, которая посвящена искусственному интеллекту, большим данным и науке о данных.
Сегодня я хочу поделиться видеозаписями всех докладов с прошлых конференций. Смотрите, изучайте и делитесь:

