Рубрика «R» - 10

ggplot2: как легко совместить несколько графиков в одном, часть 1

2017-08-27 в 17:46, admin, рубрики: ggplot2, R, визуализация, визуализация данных

Эта статья шаг за шагом покажет, как совместить несколько ggplot-графиков на одной или нескольких иллюстрациях, с помощью вспомогательных функций, доступных в пакетах R ggpubr, cowplot и gridExtra. Также опишем, как экспортировать полученные графики в файл.
Читать полностью »

Цифровая экономика и экосистема R

2017-08-14 в 8:55, admin, рубрики: big data, data mining, data science, R

Если смотреть прессу, словосочетание «цифровая экономика» ожидается одним из популярных в ближайшие несколько лет.

Цифровая экономика и экосистема R - 1

Но чтобы от перейти от слов к делу и действительно совершить цифровой скачок необходимо пересмотреть подходы и используемые инструменты. В рамках настоящей публикации, являющейся продолжением предыдущих публикаций, планирую кратко проиллюстрировать, тезис о том, что применение в бизнесе R экосистемы прекрасно вписывается в задачу перехода к цифровой экономике.

Читать полностью »

Школа Данных: хорошее мы сделали еще лучше

2017-08-11 в 7:35, admin, рубрики: big data, data mining, kaggle, R, sna, Алгоритмы, алгоритмы обработки данных, анализ данных, анализ социальных сетей, Блог компании Школа Данных, машинное обучение, рекомендательные системы, школа данных

Привет! Надеемся, этим летом не смотря на плохую погоду Вам удалось отдохнуть. Близится осень — самое время поучиться. С учетом предыдущих курсов — мы сильно обновили нашу программу — добавили множество практических занятий, больше говорим про практические кейсы. В этом посте хотелось бы подробно рассказать про все нововведения. Для тех, у кого мало времени:

Снизилась цена
8 дополнительных практических семинаров
Дополнительные занятия про бизнес
Занятия по Deep Learning
Доступно удаленное обучение
Плюс 2 занятия в Вводном курсе

Читать полностью »

R c H2O на Spark в HDInsight

2017-08-07 в 6:50, admin, рубрики: "вода, azure, big data, h2o, hdinsight, Microsoft Azure, ml, R, spark, вода, высокая производительность, кругом вода", машинное обучение

H2O – библиотека машинного обучения, предназначенная как для локальных вычислений, так и с использованием кластеров, создаваемых непосредственно средствами H2O или же работая на кластере Spark. Интеграция H2O в кластеры Spark, создаваемые в Azure HDInsight, была добавлена недавно и в этой публикации (являющейся дополнением моей прошлой статьи: R и Spark) рассмотрим построение моделей машинного обучения используя H2O на таком кластере и сравним (время, метрика) его с моделями предоставляемых sparklyr, действительно ли H2O киллер-приложение для Spark?

Читать полностью »

R и большие данные: использование Replyr

2017-07-29 в 12:37, admin, рубрики: big data, dplyr, R, replyr, spark, sparklyr, Большие данные, метки: dplyr

replyr — сокращение от REmote PLYing of big data for R (удаленная обработка больших данных в R).

Почему стоит попробовать replyr? Потому что он позволяет применять стандартные рабочие подходы к удаленным данным (базы данных или Spark).

Можно работать так же, как и с локальным data.frame. replyr предоставляет такие возможности:

Обобщение данных: replyr_summary().
Объединение таблиц: replyr_union_all().
Связывание таблиц по строкам: replyr_bind_rows().
Использование функций разделения, объединения, комбинирования (dplyr::do()): replyr_split(), replyr::gapply().
Аггрегирование/распределение: replyr_moveValuesToRows() / replyr_moveValuesToColumns().
Отслеживание промежуточных результатов.
Контроллер объединений.

Скорее всего, вы всё это делаете с данными локально, поэтому такие возможности сделают работу со Spark и sparklyr гораздо легче.

replyr — продукт коллективного опыта использования R в прикладных решениях для многих клиентов, сбора обратной связи и исправления недостатков.

Примеры ниже.
Читать полностью »

Можно ли уехать из Клинцов? (data mining of blablacar.ru)

2017-07-17 в 6:43, admin, рубрики: BlaBlacar, data mining, data science, R, визуализация данных, метки: Визуализация данных

Парсинг сайта blablacar.ru и анализ пассажиропотока из г. Клинцы Брянской области с помощью языка программирования R.

Читать полностью »

Ловись Data большая и маленькая! (Краткий обзор курсов по Data Science от Cognitive Class)

2017-06-18 в 10:31, admin, рубрики: data science, IBM, R, курсы, обучение онлайн, статистика, Учебный процесс в IT

В последнее время все чаще натыкаюсь на упоминание о «Data Science» или по-нашему «Наука о данных». Не являюсь специалистом в области IT и на протяжении всей жизни не дружу с мат. анализом и статистикой, поэтому я достаточно долго проходил мимо этого вопроса и наверное, продолжал бы проходить стороной, но в какой-то момент любопытство взяло верх.

Итак Cognitive Class он же Big Data University от IBM (иногда сокращенно BDU) – портал с бесплатными курсами по тематике близкой к BIG Data и соответственно Data Science.

Хотите узнать, чему он может или не может Вас научить, тогда милости прошу под кат.

Ловись Data большая и маленькая! (Краткий обзор курсов по Data Science от Cognitive Class) - 1 Читать полностью »

Анализ взаимосвязи навыков с помощью графов в R

2017-05-17 в 9:04, admin, рубрики: clustering, data mining, data science, dataviz, graph, R, R-project

Интересно, но такая область как профессиональное развитие остается немного в стороне от шума из-за data science. Стартапы в сфере HRtech только начинают наращивать обороты и увеличивать свою долю, замещая традиционный подход в сфере работы с профессионалами или, теми, кто хочет стать профессионалом.

Сфера HRtech очень разнообразна и включает в себя автоматизацию найма сотрудников, развитие и коучинг, автоматизацию внутренних HR процедур, отслеживание рыночных зарплат, трекинг кандидатов, сотрудников и многое другое. Данное исследование помогает с помощью методов анализа данных ответить на вопрос как взаимосвязаны навыки, какие есть специализации, какие навыки более популярны, а какие навыки следует изучить следующим.

Читать полностью »

RMarkdown, R и ggplot

2017-05-03 в 13:15, admin, рубрики: ggplot2, java, jpoint, R, rmarkdown

RMarkdown, R и ggplot

Данная статья не является ни документацией, ни рассказывает что-то принципиально новое, её стоит рассматривать как обзорную или как шпаргалку.

Преамбула

Конференция это прежде всего доклады, и далеко не последнее место занимает то, как оформлены слайды доклада.

Безусловно, есть докладчики, которые могут не смотря ни на что, провести доклад даже без единого слайда, но всё же они как правило хорошо дополняют повествование. Одним достаточно накидать мемасиков в доклад и дело готово, другим обязательно надо вставить код, причём на ассемблере (кто не в курсе ещё — JPoint — это конференция по java), и есть ещё те, кому надо показать графики. Впрочем встречается и их комбинация.

Пожалуй известные средства для создания слайдов это:

PowerPoint, и вариации в лице LibreOffice Impress, Apple KeyNote
облачные вариации с тем же подходом — Google Slides
LaTeX
и относительно новый (для меня) RMarkdown

Читать полностью »

Видеозаписи докладов конференции AI&BigDataLab за последние три года

2017-04-26 в 7:25, admin, рубрики: AI&BigDataLab, artificial intelligence, big data, data mining, Data Science Lab, FlyElephant, R, Блог компании FlyElephant, Большие данные, видеозаписи докладов, искусственный интеллект, конференция, машинное обучение

Видеозаписи докладов конференции AI&BigDataLab за последние три года - 1

Через 2 недели, 13 мая в Одессе, команда FlyElephant будет проводить конференцию Data Science Lab. Это будет наша 4-я конференция, которая посвящена искусственному интеллекту, большим данным и науке о данных.

Сегодня я хочу поделиться видеозаписями всех докладов с прошлых конференций. Смотрите, изучайте и делитесь:

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «R» - 10

ggplot2: как легко совместить несколько графиков в одном, часть 1

Цифровая экономика и экосистема R

Школа Данных: хорошее мы сделали еще лучше

R c H2O на Spark в HDInsight

R и большие данные: использование Replyr

Можно ли уехать из Клинцов? (data mining of blablacar.ru)

Ловись Data большая и маленькая! (Краткий обзор курсов по Data Science от Cognitive Class)

Анализ взаимосвязи навыков с помощью графов в R

RMarkdown, R и ggplot

RMarkdown, R и ggplot

Преамбула

Видеозаписи докладов конференции AI&BigDataLab за последние три года