Сначала я хотел честно и подробно написать о методах снижения размерности данных — PCA, ICA, NMF, вывалить кучу формул и сказать, какую же важную роль играет SVD во всем этом зоопарке. Потом понял, что получится текст, похожий на вырезки из опусов от Mathgen, поэтому количество формул свел к минимуму, но самое любимое — код и картинки — оставил в полном объеме.
Читать полностью »
Рубрика «R» - 18
Как уменьшить количество измерений и извлечь из этого пользу
2016-02-05 в 1:02, admin, рубрики: autoencoder, big data, data analysis, data mining, data science, deep learning, h2o, ICA, neural networks, NMF, PCA, R, SVD, главные компоненты, машинное обучение, Программирование, разложениеCтатистический анализ в PostgreSQL с помощью PL-R
2016-02-01 в 7:17, admin, рубрики: PL/R, postgresql, R, sql, Веб-разработка, статистический анализДрузья, на прошедшей в прошлом году конференции PG Day'15 Russia один из наших докладчиков, Joseph Conway, представил интересный материал об использовании созданного и поддерживаемого им уже больше десяти лет расширения PL/R, которое позволяет использовать язык для статистического анализа R внутри всеми любимой базы данных. Хочу предложить вашему вниманию follow-up статью, созданную на основе материалов, представленных в докладе Joe. Задача данной публикации — обзорно познакомить вас с возможностями языка PL/R. Надеюсь, что вы найдете представленную здесь информацию полезной для себя.

Последние тенденции в области Big Data поощряют сближение аналитики и данных, в то время как PL/R ненавязчиво предоставляет такой сервис вот уже 12 лет! Если вдруг вы не в курсе, PL/R – это расширение для PostgreSQL, позволяющее использовать R, язык для математических расчетов, прямо из PostgreSQL для того, чтобы легко и просто получать развернутую аналитику. Расширение доступно и активно совершенствуется с 2003 года. Оно работает со всеми поддерживаемыми версиями PostgreSQL и со всеми свежими версиями R. Тысячи людей во всем мире уже оценили его удобство и эффективность. Давайте же разберемся, что такое PL/R, обсудим достоинства и недостатки такого подхода к анализу данных и рассмотрим несколько примеров для наглядности.
Читать полностью »
Как безопасно хранить и использовать в R секретные данные
2016-01-24 в 14:15, admin, рубрики: R, Блог компании Инфопульс УкраинаПериодически возникает вопрос, как можно безопасно хранить логин и пароль в R, не задавая эти данные в явном виде в вашем скрипте. Мне кажется, есть несколько возможных решений. Можно хранить ваши параметры:
- Непосредственно в скрипте.
- В файле внутри папки с проектом, который вы не показываете.
- В файле .Rprofile.
- В файле .Renviron.
- В json файле.
- В безопасном хранилище, к которому вы обращаетесь из R.
- Используя пакет digest.
- Используя пакет sodium.
- Используя пакет secure.
Давайте рассмотрим основную идею, преимущества (или недостатки) каждого из подходов.
[От переводчика: упорядочено по мере возрастания полезности.]
Читать полностью »
FlyElephant как инструмент для вычислений на C++, R, Python или Octave
2016-01-20 в 12:31, admin, рубрики: big data, blender, c++, FlyElephant, gcc, gromacs, HPC, java, Julia, octave, OpenFOAM, openmp, python, R, SciLab, Блог компании FlyElephant, высокая производительность, научные расчёты, Облачные вычисления, параллельное программирование, стартапы 
Приветствую всех!
Сегодня я расскажу о возможностях платформы FlyElephant для ученых и инженеров, которые в своей работе проводят различные вычисления на C++, R, Python или Octave. Это могут быть научные расчеты, анализ данных, моделирование или другие задачи. 22 января я буду проводить вебинар “Введение в FlyElephant”, на котором детально расскажу о платформе FlyElephant, а сегодня в общих чертах познакомлю вас с ней и покажу процесс проведения расчетов.
FlyElephant — это платформа, которая предоставляет ученым готовую вычислительную инфраструктуру для проведения расчетов, автоматизирует рутинные задачи и позволяет сосредоточиться на основных вопросах исследований.
Читать полностью »
Школа Данных «Билайн», каникулы закончились
2016-01-15 в 12:22, admin, рубрики: big data, data mining, kaggle, R, sna, Алгоритмы, алгоритмы обработки данных, анализ данных, анализ социальных сетей, Блог компании ВымпелКом (Билайн), машинное обучение, рекомендательные системы, школа данных 
Привет!
Надеемся, что в Новогодние праздники многие из Вас отлично отдохнули. Но, каникулы закончились. Пора вернуться к машинному обучению и анализу данных. С 25 января мы запускаем третий набор Школы Данных «Билайн».
В прошлом посте мы обещали вам более детально рассказать, чему мы учим на наших занятиях по анализу текстов. В данном посте мы данное обещание исполняем.
Кстати, если вы уже активно занимаетесь анализом и обработкой текстов и хотите попробовать себя, рекомендуем поиграться с задачей The Allen AI Science Challenge на Kaggle=) и заодно поучаствовать в DeepHack, хакатоне по анализу текстов и построению ответных систем.
Про то, чему мы учим на наших занятиях по обработке текстов дальше.
Читать полностью »
Revolution R переименован в Microsoft R и доступен бесплатно для разработчиков и студентов
2016-01-14 в 12:38, admin, рубрики: big data, BigData, microsoft, Microsoft SQL Server, R, sqlserver 
За девять месяцев, с тех пор как Microsoft приобрела Revolution Analytics, компанией было выпущено много обновлений для Revolution R Open и Revolution R Enterprise, не говоря уже об интеграции R с SQL Server, PowerBI, Azure и Cortana Analytics.
Несколько дней назад, Microsoft предоставила доступ к продуктам R Server по подпискам MSDN и DreamSpark.
Читать полностью »
Новые инструменты (Octave и Scilab) во FlyElephant и анонс вебинаров
2016-01-11 в 14:08, admin, рубрики: big data, blender, c++, data mining, FlyElephant, gcc, gromacs, HPC, java, Julia, octave, OpenFOAM, openmp, python, R, SciLab, Блог компании FlyElephant, вебинар, высокая производительность, научные расчёты, Облачные вычисления, параллельное программирование, стартапы, метки: FlyElephant 
Команда FlyElephant поздравляет всех с наступившим Новым Годом. Мы начинаем этот год с расширения списка инструментов, вебинаров и формирования сообщества вокруг проекта.
FlyElephant — это платформа, которая предоставляет ученым готовую вычислительную инфраструктуру для проведения расчетов, автоматизирует рутинные задачи и позволяет сосредоточиться на основных вопросов исследований.
Для пользователей платформы FlyElephant стали доступны Octave и Scilab, таким образом полный список поддерживаемых языков и инструментов следующий: GCC (с поддержкой OpenMP), R, Python (v2 & v3), Octave и Scilab. Для участников программы бета-тестирования стал доступен следующий инструментарий: Java (v7 & v8), Julia, OpenFOAM, GROMACS и Blender. Если Вы еще не являетесь пользователем платформы FlyElephant, то зарегистрироваться можно здесь. В честь Нового Года Вы можете пополнить свой счет на $300 введя в Личном кабинете специальный промо-код: 195708679772.
Читать полностью »
Использование apply, sapply, lapply в R
2016-01-11 в 7:38, admin, рубрики: R, Блог компании Инфопульс УкраинаЭто вводная статья об использовании apply, sapply и lapply, она лучше всего подходит для людей, которые недавно работают с R или незнакомы с этими функциями. Я приведу несколько примеров использования функций семейства apply, поскольку они часто применяются при работе в R.
Я сравнивал эти три метода на наборе данных. Была сгенерирована выборка, и они к ней применялись. Хотелось посмотреть, чем отличаются результаты их применения.
Также использовался тестовый стенд, который возвращал матрицу. В ней было три колонки и около 30 строк. Выглядело примерно так:
method1 method2 method3
[1,] 0.05517714 0.014054038 0.017260447
[2,] 0.08367678 0.003570883 0.004289079
[3,] 0.05274706 0.028629661 0.071323030
[4,] 0.06769936 0.048446559 0.057432519
[5,] 0.06875188 0.019782518 0.080564474
[6,] 0.04913779 0.100062929 0.102208706
Такие данные можно симулировать с помощью rnorm, чтобы создать три набора. Первый — со средним, равным 0, второй — со средним 2, третий — со средним 5, и 30 строк.
m <- matrix(data=cbind(rnorm(30, 0), rnorm(30, 2), rnorm(30, 5)), nrow=30, ncol=3)
AI, BigData & HPC Digest #3
2015-12-30 в 12:33, admin, рубрики: AI, big data, BigData, data mining, FlyElephant, high performance computing, HPC, R, анализ данных, Блог компании FlyElephant, Большие данные, видео, высокая производительность, дайджест, искусственный интеллект, Мероприятия, Новости, подкасты, статьи 
Привет!
Наша команда FlyElephant хочет поздравить всех с наступающим Новым Годом, пожелать всего самого лучшего и успешной реализации всех задуманных проектов в предстоящем году, а чтобы на выходных было что почитать, публикуем свежий номер дайджеста. Сегодня в выпуске традиционная подборка интересных ссылок на новости и материалы по направлениям: искусственный интеллект, большие данные и высокопроизводительные вычисления.
14-го января мы проведем вебинар на тему "Введение в машинное обучение", на котором поговорим об истории и основных понятиях машинного обучения. Рассмотрим популярные задачи/алгоритмы машинного обучения, а также запустим их примеры при помощи платформы FlyElephant и узнаем как возможно использовать данную платформу для решения задач искусственного интеллекта. Зарегистрироваться на вебинар можно здесь.
Читать полностью »
Фестиваль Данных в музее Москвы, как это было
2015-12-29 в 11:19, admin, рубрики: big data, data mining, kaggle, R, sna, Алгоритмы, алгоритмы обработки данных, анализ данных, анализ социальных сетей, Блог компании ВымпелКом (Билайн), машинное обучение, рекомендательные системы, школа данных 
Привет Хабр,
Итак, мы провели Фестиваль Данных на выставке новых технологий SMIT в Музее Москвы, о котором писали здесь.
Это первое мероприятие из серии, в которой мы собираем экспертов из разных областей бизнеса, науки и государственного управления и рассказываем про аналитику данных.
Хранение и анализ данных, которые были прерогативой узкого круга компаний и людей теперь начинают затрагивать жизнь практически всех. По этой причине мы и начали данную серию мероприятий, где мы широкой аудитории рассказываем про данные и их аналитику.
Читать полностью »
