Главная

Рубрика «random forest» - 2

Методические заметки об отборе информативных признаков (feature selection)

2016-06-28 в 22:37, admin, рубрики: data mining, feature selection, gradient boosted trees, R, random forest, машинное обучение, нейронные сети, отбор информативных признаков, регрессия, статистика, теория информации, метки: feature selection, отбор информативных признаков

Всем привет!

Меня зовут Алексей. Я Data Scientist в компании Align Technology. В этом материале я расскажу вам о подходах к feature selection, которые мы практикуем в ходе экспериментов по анализу данных.

В нашей компании статистики и инженеры machine learning анализируют большие объемы клинической информации, связанные с лечением пациентов. В двух словах смысл этой статьи можно свести к извлечению ценных крупиц знания, содержащихся в небольшой доле доступных нам зашумленных и избыточных гигабайтов данных.

Данная статья предназначена для статистиков, инженеров машинного обучения и специалистов, которые интересуются вопросами обнаружения зависимостей в наборах данных. Также материал, изложенный в статье, может быть интересен широкому кругу читателей, неравнодушных к data mining. В материале не будут затронуты вопросы feature engineering и, в частности, применения таких методов как анализ главных компонент.

Читать полностью »

Мешок слов и сентимент-анализ на R

2015-04-07 в 9:12, admin, рубрики: data mining, kaggle, R, random forest, машинное обучение, мешок слов, сантимент-анализ, метки: R, R, random forest, мешок слов, сантимент-анализ

Эта статья подготовлена по мотивам (первой части) учебного задания Bag of Words Kaggle, но это не перевод. Оригинальное задание сделано на Python. Я же хотел оценить возможности языка R для обработки текстов на естественном языке и заодно попробовать реализацию Random Forest в обертке R-пакета caret.

Смысл задания – построить «машину», которая будет определенным образом обрабатывать обзоры фильмов на английском языке и определять тональность обзора, относя его к одному из двух классов: негативные/позитивные. В качестве обучающей выборки в задании используется набор данных с двадцатью пятью тысячами ревю из IMDB, размеченных неизвестными добровольцами.
Читать полностью »

Знания предметной области бесполезны. Когда предсказания становятся игрой, эксперты проигрывают

2013-01-22 в 7:03, admin, рубрики: data mining, kaggle, machine learning, random forest, Алгоритмы, машинное обучение, переводы, Статистика в IT

Знания предметной области бесполезны. Когда предсказания становятся игрой, эксперты проигрывают
Джереми Ховард — президент и «главный по науке» компании Kaggle, превратившей статистическое прогнозирование в спорт.

Peter Aldhous: Kaggle называет себя онлайн-биржей мозгов. Расскажите об этом.

Джереми Ховард: Это веб-сайт, на котором размещают конкурсы по статистическому прогнозированию. Мы провели много удивительных конкурсов. Например, разработка алгоритма оценки студенческих рефератов. Или вот недавно закончился конкурс на разработку системы обучения Microsoft Kinect жестам. Идея состояла в том, чтобы показать контроллеру жест один раз, а алгоритм должен обучиться распознавать такие жесты в будущем. Еще один конкурс — прогнозирование биологических свойств молекул при скрининге на возможные наркотические свойства.

Читать полностью »

Публикации RSS | Комментарии RSS

https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «random forest» - 2

Методические заметки об отборе информативных признаков (feature selection)

Мешок слов и сентимент-анализ на R

Знания предметной области бесполезны. Когда предсказания становятся игрой, эксперты проигрывают

Архив

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «random forest» - 2

Методические заметки об отборе информативных признаков (feature selection)

Мешок слов и сентимент-анализ на R

Знания предметной области бесполезны. Когда предсказания становятся игрой, эксперты проигрывают

Новости

Актуальные темы

Архив