Рубрика «data mining» - 74

Поиск взаимосвязей на примере Нефть-Рубль

2015-03-17 в 9:18, admin, рубрики: data mining, Gnuplot, анализ данных, визуализация, визуализация данных, регрессия

Одна из базовых задач анализа данных — поиск взаимосвязи двух величин. Здесь я хочу показать пример поиска связи между ценой нефти и курсом рубля.

Во-первых надо определить, имеет ли вообще задача смысл. Почему нефть и рубль должны/могут быть взаимосвязаны? Вкратце, модель такая: экспортёры продают нефть за доллары, а затем продают доллары, чтобы получить рубли для расчётов внутри страны. Механизм крайне упрощён, надо учитывать объёмы добычи-продажи, что эскортируют не только нефть, не всегда экспортёры продают доллары, на курс валют влияет ЦБ интервенциями и т.д. И тем не менее, будем считать, что модель более-менее рабочая, то есть, что существуют фундаментальные причины для взаимосвязи цены нефти и курса рубля.
Читать полностью »

Ваш персональный курс по Big Data

2015-03-16 в 13:13, admin, рубрики: big data, data mining, machine learning, python, анализ социальных сетей, Большие данные, математика, машинное обучение, Поисковые машины и технологии, социальные сети, метки: Big Data, Data Mining

Ваш персональный курс по Big Data - 1 Привет!

После публикации нескольких статей по Big Data и Машинному обучению, ко мне пришло немало писем от читателей с вопросами. За последние несколько месяцев мне удалось помочь многим людям сделать быстрый старт, некоторые из них — уже решают прикладные задачи и делают успехи. А кто-то уже устроился на работу и занимается решением реальных задач. Моя цель — чтобы вокруг меня были умные люди, с которыми в том числе и я смогу работать в дальнейшем. Поэтому я хочу помочь тем, кто действительно хочет научиться решать настоящие задачи на практике. В сети присутствует большое количество мануалов о том, как стать ученым по данным (Data Scientist). В свое время я прошел все, что там есть. Однако, на практике порой нужны совсем другие знания. О том, какие именно навыки нужны — я расскажу в сегодняшней статье и постараюсь ответить на все Ваши вопросы.
Читать полностью »

Обзор наиболее интересных материалов по анализу данных и машинному обучению №39 (9 — 15 марта 2015)

2015-03-15 в 15:58, admin, рубрики: big data, data mining, data science, data science digest, high scalability, machine learning, машинное обучение

Обзор наиболее интересных материалов по анализу данных и машинному обучению №39 (9 — 15 марта 2015) - 1
Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать полностью »

Визуальная линейная аппроксимация с помощью Gnuplot

2015-03-13 в 9:55, admin, рубрики: data mining, Gnuplot, анализ данных, визуализация данных, линейная регрессия

Говорят, что нелинейная аппроксимация — это искусство, но и с обычной линейной дело, бывает, обстоит не просто.

Многие, наверно, помнят, что самый простой и довольно точный метод построения прямых МНК — это «прозрачной линейкой на глазок». Раньше, когда считали на калькуляторах, этот метод позволял экономить многие часы монотонных вычислений, но сейчас для заведомо линейных процессов это уже не актуально, аппроксимацию умеет мгновенно считать и рисовать даже Excel.

Однако при решении реальных задач часто приходится иметь дело с процессами, у которых модель неизвестна. В таких случаях бывает разумно строить кусочно-линейные аппроксимации. И вот тут, когда точных критериев построения просто не существует — метод «прозрачной линейки», основанный на «искусстве аппроксимации» (по простому — чуйке), опять становится актуальным.
Читать полностью »

Работа с метасетевыми структурами на Python – библиотека MetaNet

2015-03-11 в 14:33, admin, рубрики: data mining, open source, python, искусственный интеллект, метасети, нейронные сети, оппозитные сети, синтетическое познание

Когда видите единственное решение – спросите других

Работа с метасетевыми структурами на Python – библиотека MetaNet - 1

В данной статье я хотел бы рассказать о некоторых предпосылках появления инструмента для моделирования метасетей.

Автоматизация обучения

Изначально возникла проблема автоматизации обучения искусственных нейронных сетей с определёнными временными ограничениями. На пути ее решения был предложен подход к использованию оппозитных нейронных сетей [1]. Суть в том, что бы обучать две сети, одну как обычно:
Читать полностью »

Big Data как подростковый секс: все об этом говорят, но…

2015-03-10 в 14:51, admin, рубрики: big data, data mining, lazy data, Блог компании New Professions Lab, высокая производительность, зарплата, карьера, курс, машинное обучение, метки: Big data

Big Data как подростковый секс: все об этом говорят, но… - 1

Студент в Big Data получает 70 тысяч рублей в месяц, а специалист с опытом 3-4 года — 250 тысяч рублей в месяц. Это те, например, кто умеет персонализировать предложения розницы, искать в соцсети человека по анкетным данным заявки на кредит или по списку посещённых сайтов вычислять новую симку старого абонента.

Мы решили сделать профессиональный курс по Big Data без «воды», маркетинга и всяких эджайлов, только хардкор. Позвали практиков из 7 крупных компаний (включая Сбербанк и Oracle) и устроили, фактически, хакатон длиной во весь курс. Недавно у нас прошел день открытых дверей по программе, где мы напрямую спросили практиков, что же есть Big Data в России, и как компании на деле используют большие данные. Ниже ответы. Читать полностью »

Курс по Big Data: три месяца на основные знания, и зачем это нужно

Курс по Big Data: три месяца на основные знания, и зачем это нужно - 1

Обзор наиболее интересных материалов по анализу данных и машинному обучению №38 (2 — 8 марта 2015)

2015-03-10 в 8:52, admin, рубрики: big data, data mining, data science, data science digest, high scalability, machine learning, машинное обучение

Обзор наиболее интересных материалов по анализу данных и машинному обучению №38 (2 — 8 марта 2015) - 1
Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать полностью »

Google научился проверять факты в текстах

2015-03-05 в 14:07, admin, рубрики: data mining, freebase, Google, KBT, Knowledge Vault, Knowledge-Based Trust, pagerank, Научно-популярное, метки: Freebase, Knowledge Vault, Knowledge-Based Trust, PageRank

Раньше Google понижал в выдаче веб-страницы с маленьким количеством входящих ссылок. Скоро он научится «наказывать» страницы с текстом, который содержит недостоверные факты. Это следует из научной работы “Knowledge-Based Trust: Estimating the Trustworthiness of Web Sources” от сотрудников Google.

Им удалось разработать систему, которая автоматически извлекает факты с веб-страниц, отличает ошибки парсинга от фактологических ошибок в тексте, а затем вычисляет уровень достоверности текста (оценка KBT, Knowledge-Based Trust). Эта оценка иногда является более объективным показателем, что рейтинг PageRank (по крайней мере, рейтинг KBT способен уточнить значение PageRank). Например, у сайтов с «жёлтыми» новостями часто больший рейтинг PageRank, потому что на них много входящих ссылок из-за вирусности контента. Но в то же время их нельзя считать надёжным источником информации.
Читать полностью »

Информация

Комментарии

Рекомендуем