13 марта на официальном YouTube канале Евровидения была выложена композиция группы Little Big, которая будет представлять Россию на конкурсе. Посмотрев клип, захотелось сравнивать статистику видео нашей группы, с видео других участников; какие ролики самые просматриваемые, у кого самый большой процент лайков, кого чаще всего комментируют. Гугление готовой статистики ни к чему не привело. Поэтому было решено самому собрать нужную статистику.
Читать полностью »
Рубрика «R» - 3
Анализ популярности YouTube видео участников Евровидения 2020
2020-03-14 в 11:23, admin, рубрики: data mining, R, youtube api, анализ данных, визуализация данных, евровидениеUsing Data Science for house hunting in Montreal
2020-03-01 в 7:28, admin, рубрики: data mining, data science, diy или сделай сам, geospatial computing, montreal, R, real estateIntroduction
I happen to live in Montreal, in my condo on the edge of McGill Ghetto. Close to Saint Laurent Boulevard or the Maine as locals call it, with all it's attractions — bars, restaurants, night clubs, drunken students. And once upon a time, on a particular lively night, listening to the sounds of McGill frosh students drunkenly heading home after hard night of studying. I thought, that it might be a good idea to move into my own house, a little bit further away from the action.

Применяем Data Science в мирных целях покупки дома
2020-02-22 в 7:50, admin, рубрики: data mining, data science, diy или сделай сам, geospatial computing, montreal, R, real estate, Лайфхаки для гиковЧтобы продать что-нибудь ненужное, нужно сначала купить что-нибудь ненужное, а у нас денег нет.
— Трое из Простоквашино
Введение
Так получилось, что я живу в своей квартире (или кондо по-местному) в Монреале. И однажды, примерно год назад меня посетила мысль что неплохо-бы перебраться в собственный дом. Некоторый опыт покупки и продажи жилья у меня уже был и, в принципе, можно было-бы подойти к этому вопросу просто, как поступает большинство местных обывателей: нанять риэлтора и предоставить ему разобраться со всеми вопросами, но это было-бы скучно и не интересно.
Поэтому я решил подойти к этому делу научно: есть задача надо разобраться сколько примерно то что у меня есть, и где находится то что я могу себе позволить. Ну и попутный вопрос — понять куда дует ветер. И изучить гео-пространственные вычисления в R.
Управление портфелями опционов в R
2020-01-17 в 11:55, admin, рубрики: quik, R, опционы, трейдинг, финансы в ITПрограмм для анализа и управления портфелями опционов много. Они есть в торговых терминалах, в виде отдельных коммерческих продуктов или сервисов на сайтах. У таких программ есть ряд ограничений: портфели привязаны к торговой платформе, котировки подкачиваются из определённого источника, а рассчитать параметры или сценарии можно только предусмотренные ПО.
Задачу управления портфелями на разных рынках я решил с помощью R. Движок с открытым кодом даёт много возможностей: портфели хранятся в любой СУБД или Excel, или загружаются из терминала (QUIK, TWS, любого другого с API); котировки подкачиваются из своего источника (терминал, база данных или сайт) и доступна любая аналитика по портфелю!
Как в Microsoft SQL Server получать данные из Google Analytics при помощи R
2019-09-05 в 12:27, admin, рубрики: dwh, google analytics, Google API, Microsoft SQL Server, R, sql, sql serverВ этом материале я хочу подробно показать, как можно при помощи R в Microsoft SQL Server реализовать получение данных из Google Analytics (и вообще из любого API).
Благодарности:
Поскольку я ни разу не маркетолог мне требовалась помощь специалиста. Тестовый кабинет и доступ Google Analytics (GA) организовал Алексей Селезнёв , а также давал дельные консультации.
Он профессионально занимается аналитикой в маркетинге. И в качестве благодарности за помощь упоминается здесь телеграмм канал Алексея, где он ведет свою активность.
Задача — у нас есть сервер MS SQL и мы хотим получать данные в DWH по API
Для подключения к Google Analytics (GA) будем использовать пакет googleAnalyticsR.
Данный пакет выбран, для примера в силу своей популярности. Вы можете использовать другой пакет, например: RGoogleAnalytic.
Подходы к решению задачи будут одинаковыми.
Полезная help-ссылка для работы с данными
2019-09-03 в 7:17, admin, рубрики: big data, data mining, python, R, анализ данных, Блог компании Mail.Ru Group, математика, машинное обучение, статистикаХабр, привет. Представляю вам главную help-ссылку для работы с данными. Материал в Гугл-доке подойдет как профессионалам, так и тем, кто только учится работать с данными. Пользуйтесь и прокачивайте скиллы сами + делитесь с коллегами.
Дальнейшее описание поста — это содержание help-ссылки. Поэтому, можете сразу ознакомиться с документом. Либо начать с её содержания, которую прикрепляю ниже.
Конечно, весь список книг/сервисов/видео и лекций в файле неполный. Поэтому предлагаю сделать этот пост ценнейшим — добавляйте в комментарии свои самые полезные ссылки, самые крутые из них я добавлю к себе в файл.
Web scraping на R, часть 2. Ускорение процесса с помощью параллельных вычислений и использование пакета Rcrawler
2019-08-26 в 6:46, admin, рубрики: data mining, parallel programming, R, scraping, параллельное программирование
В прошлой статье я с помощью скрэпинга-парсинга собрал с сайтов IMDB и Кинопоиск оценки фильмов и сравнил их. Репозиторий на Github.
Код неплохо справился со своей задачей, однако скрэпинг часто используют для "соскабливания" не пары-тройки страниц, а пары-тройки тысяч и для такого "большого" скрэпинга код из прошлой статьи не подходит. Точнее будет сказать не оптимален. В принципе, Вам практически ничего не мешает его использовать для задач обхода тысяч страниц. Практически, потому что столько времени у Вас просто нет Читать полностью »
Хороший инструмент + наличие навыков работы с ним, что достигается путем практики, позволяет легко и элегантно решать множество различных «как бы» нетипичных задач. Ниже пара подобных примеров. Уверен, что многие могут этот список расширить.
Является продолжением предыдущих публикаций.Читать полностью »
Web scraping с помощью R. Сравнение оценок фильмов на сайтах Кинопоиск и IMDB
2019-08-08 в 9:41, admin, рубрики: data mining, dataviz, R, scraping, анализ данных, визуализация данных, извлечение данных, скраппинг
Всемирная паутина — это океан данных. Здесь можно посмотреть практически любую интересующую Вас информацию. Однако, "вытащить" эту информацию из интернета уже сложнее. Есть несколько способов получить данные и web-scraping один из них. Читать полностью »
Книга «Предиктивное моделирование на практике»
2019-08-07 в 13:11, admin, рубрики: data mining, R, Алгоритмы, Блог компании Издательский дом «Питер», книги, Профессиональная литература
Привет, Хаброжители! «Предиктивное моделирование на практике» охватывает все аспекты прогнозирования, начиная с ключевых этапов предварительной обработки данных, разбиения данных и основных принципов настройки модели. Все этапы моделирования рассматриваются на практических примерах из реальной жизни, в каждой главе дается подробный код на языке R.
Эта книга может использоваться как введение в предиктивные модели и руководство по их применению. Читатели, не обладающие математической подготовкой, оценят интуитивно понятные объяснения конкретных методов, а внимание, уделяемое решению актуальных задач с реальными данными, поможет специалистам, желающим повысить свою квалификацию.
Авторы постарались избежать сложных формул, для усвоения основного материала достаточно понимания основных статистических концепций, таких как корреляция и линейный регрессионный анализ, но для изучения углубленных тем понадобится математическая подготовка.
Читать полностью »

