Рубрика «регрессия» - 2

Идентификация коинтегрированных пар акций на фондовых рынках

2017-07-13 в 7:05, admin, рубрики: анализ временных рядов, коинтеграция, математика, регрессия, случайные процессы, тест Энгла-Грэнджера, метки: коинтеграция, тест Энгла-Грэнджера

Цель данной статьи — поделиться результатами исследования по выявлению коинтегрированных пар акций, которые представлены на Московской и Нью-Йоркской биржах, с помощью теста Энгла-Грэнджера.

Если мы возьмём две акции со стационарными приращениями, и найдём их некоторую линейную комбинацию (спред), которая будет стационарна, то такой временной ряд будет называться коинтегрированным. Наличие коинтеграции даёт нам возможность захеджироваться акциями и построить рыночно-нейтральную стратегию. Почему это возможно?
Читать полностью »

Обзор Splunk Machine Learning Toolkit

2017-05-05 в 5:19, admin, рубрики: dashboard, machine learning, splunk, анализ данных, анализ логов, Блог компании TS Solution, логи, машинное обучение, определение зависимостей, прогнозирование, регрессия, Серверное администрирование, Сетевые технологии, системное администрирование

Обзор Splunk Machine Learning Toolkit - 1
Помимо того, что Splunk может собирать логи практически из любых источников и строить аналитические отчеты, дашборды, алерты на основе встроенного языка поисковых запросов SPL, о котором мы писали в предыдущих статьях, Splunk еще имеет очень большую базу бесплатных аддонов и приложений.

Сегодня мы рассмотрим одно из самых популярных, с точки зрения пользователей, приложений — Splunk Machine Learning Toolkit.
Читать полностью »

О линейной регрессии: байесовский подход к курсу рубля

2017-04-05 в 7:32, admin, рубрики: bayesian, data mining, jags, R, rjags, variable selection, анализ данных, Байес, временные ряды, всемирный заговор, курс, математика, машинное обучение, нефть, Программирование, регрессия, рубль, статистика, цены, эконометрика, метки: Временные ряды

О линейной регрессии: байесовский подход к курсу рубля - 1
Не секрет, что курс рубля напрямую зависит от стоимости нефти (и от кое-чего еще). Этот факт позволяет строить довольно интересные модели. В своей статье о линейной регрессии я коснулся некоторых вопросов, посвященных диагностике модели, а за кадром остался такой вопрос: есть ли более эффективная, но не слишком сложная альтернатива линейной регрессии? Традиционно используемый метод наименьших квадратов прост и понятен, но есть и другие подходы ~~(не такие понятные)~~.

Читать полностью »

Порождение и выбор моделей машинного обучения. Лекция в Яндексе

2016-12-04 в 15:53, admin, рубрики: random forest, акселерометры, Алгоритмы, Блог компании Яндекс, временные ряды, Занимательные задачки, линейная регрессия, математика, машинное обучение, нейронные сети, опорные вектора, регрессия

Применение машинного обучения может включать работу с данными, тонкую настройку уже обученного алгоритма и т. д. Но масштабная математическая подготовка нужна и на более раннем этапе: когда вы только выбираете модель для дальнейшего использования. Можно выбирать «вручную», применяя разные модели, а можно и этот процесс попробовать автоматизировать.

Под катом — лекция ведущего научного сотрудника РАН, доктора наук и главного редактора журнала «Машинное обучение и анализ данных» Вадима Стрижова, а также большинство слайдов.

Читать полностью »

Решение задачи «Оценка производительности» mlbootcamp.ru

2016-07-18 в 15:54, admin, рубрики: python, sklearn, машинное обучение, регрессия, соревнование

Осталось менее трех дней до окончания конкурса «Оценка производительности». Возможно, данная статья кому-то поможет улучшить свое решение. Суть задачи — предсказать время умножения двух матриц на разных вычислительных системах. В качестве оценки качества предсказания берется наименьшая средняя относительная ошибка MAPE.

На текущий момент первое место — 4.68%. Ниже хочу описать свой путь к 6.69% (а это уже 70+ место).
Читать полностью »

Методические заметки об отборе информативных признаков (feature selection)

2016-06-28 в 22:37, admin, рубрики: data mining, feature selection, gradient boosted trees, R, random forest, машинное обучение, нейронные сети, отбор информативных признаков, регрессия, статистика, теория информации, метки: feature selection, отбор информативных признаков

Всем привет!

Меня зовут Алексей. Я Data Scientist в компании Align Technology. В этом материале я расскажу вам о подходах к feature selection, которые мы практикуем в ходе экспериментов по анализу данных.

В нашей компании статистики и инженеры machine learning анализируют большие объемы клинической информации, связанные с лечением пациентов. В двух словах смысл этой статьи можно свести к извлечению ценных крупиц знания, содержащихся в небольшой доле доступных нам зашумленных и избыточных гигабайтов данных.

Данная статья предназначена для статистиков, инженеров машинного обучения и специалистов, которые интересуются вопросами обнаружения зависимостей в наборах данных. Также материал, изложенный в статье, может быть интересен широкому кругу читателей, неравнодушных к data mining. В материале не будут затронуты вопросы feature engineering и, в частности, применения таких методов как анализ главных компонент.

Читать полностью »

Рост хоккеистов: анализируем данные всех чемпионатов мира в текущем веке

2016-05-24 в 4:00, admin, рубрики: cohort analysis, cohort effect, data mining, exploratory data analysis, IIHF, R, визуализация данных, когортный анализ, когортный эффект, открытые данные, Программирование, регрессия, рост спортсменов, сборная России, спортивная аналитика, хоккей, чемпионат мира по хоккею 2016, метки: IIHF, регрессия, рост спортсменов, сборная России, хоккей, чемпионат мира по хоккею 2016

На днях завершился очередной чемпионат мира по хоккею.

За просмотром матчей родилась идея. Когда в перерывах телевизионная камера показывает уходящих в раздевалку игроков, трудно не заметить, насколько они огромные. На фоне тренеров, функционеров команд, сотрудников ледовой арены, журналистов или просто фанатов они, как правило, выглядят очень внушительно.

Вот, к примеру, восходящие звезды финского хоккея, Патрик Лайне и Александр Барков, вместе с преданными поклонниками

Рост хоккеистов: анализируем данные всех чемпионатов мира в текущем веке - 2

Источник

И я задался вопросами. Действительно ли хоккеисты выше обычных людей? Как изменяется рост хоккеистов со временем в сравнении с обычными людьми? Есть ли устойчивые межстрановые различия?

Читать полностью »

Поиск взаимосвязей на примере Нефть-Рубль

2015-03-17 в 9:18, admin, рубрики: data mining, Gnuplot, анализ данных, визуализация, визуализация данных, регрессия

Одна из базовых задач анализа данных — поиск взаимосвязи двух величин. Здесь я хочу показать пример поиска связи между ценой нефти и курсом рубля.

Во-первых надо определить, имеет ли вообще задача смысл. Почему нефть и рубль должны/могут быть взаимосвязаны? Вкратце, модель такая: экспортёры продают нефть за доллары, а затем продают доллары, чтобы получить рубли для расчётов внутри страны. Механизм крайне упрощён, надо учитывать объёмы добычи-продажи, что эскортируют не только нефть, не всегда экспортёры продают доллары, на курс валют влияет ЦБ интервенциями и т.д. И тем не менее, будем считать, что модель более-менее рабочая, то есть, что существуют фундаментальные причины для взаимосвязи цены нефти и курса рубля.
Читать полностью »

Машинное обучение — 2. Нелинейная регрессия и численная оптимизация

2015-03-10 в 9:22, admin, рубрики: mathcad, Блог компании Нерепетитор.ру, визуализация данных, конверсия сайтов, математика, машинное обучение, моделирование, модель конверсии, регрессия

Прошел месяц с появления моей первой статьи на Хабре и 20 дней с момента появления второй статьи про линейную регрессию. Статистика по просмотрам и целевым действиям аудитории копится, и именно она послужила отправной точкой для данной статьи. В ней мы коротко рассмотрим пример нелинейной регрессии (а именно, экспоненциальной) и с ее помощью построим модель конверсии, выделив среди пользователей две группы.

Когда известно, что случайная величина y зависит от чего-то (например, от времени или от другой случайной величины x) линейно, т.е. по закону y(x)= Ax+b, то применяется линейная регрессия (так в прошлой статье мы строили зависимость числа регистраций от числа просмотров). Для линейной регрессии коэффициенты A и b вычисляются по известным формулам. В случае регрессии другого вида, например, экспоненциальной, для того чтобы определить неизвестные параметры, необходимо решить соответствующую оптимизационную задачу: а именно, в рамках метода наименьших квадратов (МНК) задачу нахождения минимума суммы квадратов (y(x_i) — y_i)².

Итак, вот данные, которые будем использовать в качестве примера. Пики посещаемости (ряд Views, красный пунктир) приходятся на моменты выходя статей. Второй ряд данных (Regs, с множителем 100) показывает число читателей, выполнивших после прочтения определенное действие (регистрацию и скачивание Mathcad Express – с его помощью, к слову, вы сможете повторить все расчеты этой и предыдущих статей). Все картинки — это скриншоты Mathcad Express, а файл с расчетами вы можете взять здесь.
Машинное обучение — 2. Нелинейная регрессия и численная оптимизация - 1

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «регрессия» - 2

Идентификация коинтегрированных пар акций на фондовых рынках

Обзор Splunk Machine Learning Toolkit

О линейной регрессии: байесовский подход к курсу рубля

Порождение и выбор моделей машинного обучения. Лекция в Яндексе

Рекомендательные системы в онлайн-образовании. Продолжение

Решение задачи «Оценка производительности» mlbootcamp.ru

Методические заметки об отборе информативных признаков (feature selection)

Рост хоккеистов: анализируем данные всех чемпионатов мира в текущем веке

Поиск взаимосвязей на примере Нефть-Рубль

Машинное обучение — 2. Нелинейная регрессия и численная оптимизация