Рубрика «машинное обучение» - 250

FlyElephant празднует первый год работы в публичном доступе и анонсирует сотрудничество с HPC-HUB

2016-11-25 в 13:10, admin, рубрики: big data, blender, c++, data mining, docker, FlyElephant, gcc, gromacs, HPC, java, Julia, jupyter, octave, OpenFOAM, openmp, python, R, SciLab, Блог компании FlyElephant, высокая производительность, машинное обучение, научные расчёты, Облачные вычисления, параллельное программирование, стартапы

FlyElephant празднует первый год работы в публичном доступе и анонсирует сотрудничество с HPC-HUB - 1

В ноябре FlyElephant празднует первый год работы в публичном доступе. FlyElephant — это платформа для дата сайнтистов, инженеров и ученых, которая ускоряет бизнес с помощью автоматизации Data Science и Engineering Simulation.
Читать полностью »

data.table: выжимаем максимум скорости при работе с данными в языке R

2016-11-25 в 6:26, admin, рубрики: big data, microsoft, R, Блог компании Microsoft, Большие данные, журнал хакер, машинное обучение, Программирование, хакер, язык r

На эксклюзивных условиях представляем для вас полный вариант статьи из журнала Хакер, посвященной разработке на R. Под катом вы узнаете, как выжать максимум скорости при работе с табличными данными в языке R.

data.table: выжимаем максимум скорости при работе с данными в языке R - 1 Читать полностью »

Маленький код для больших данных или Apache Spark за 3 дня

2016-11-24 в 20:45, admin, рубрики: ASP, big data, java, spark, машинное обучение

Пусть Жираф был не прав,
Но виновен не Жираф,
А тот, кто крикнул из ветвей:
«Жираф большой — ему видней!» (с)

Потребовалось оперативно разобраться с технологией Apache Spark заточенную для использования Big Data. В процессе выяснения активно использовал habrahabr, так что попробую вернуть информационный должок, поделившись приобретенным опытом.

А именно: установкой системы с нуля, настройкой и собственно программированием кода решающего задачу обработки данных для создания модели, вычисляющей вероятность банкротства клиента банка по набору таких признаков как сумма кредита, ставка и т.д.

Больших данных вроде как должно быть много, но почему-то не просто найти то злачное место, где их все щупают. Сначала попробовал вариант с ambari, но на моей Window7 валились ошибки настроек сетевого моста. В итоге прокатил вариант с преднастроенной виртуальной машиной от Cloudera (CDH). Просто устанавливаем VirtualBox, запускаем скачанный файл, указываем основные параметры (память, место) и через 5 минут достопочтенный ~~джин~~ Apache Hadoop жаждет ваших указаний.

Несколько слов, почему именно Spark. Насколько я понимаю, ключевые отличия от изначальной MapReduce в том, что данные удерживаются в памяти, вместо сброса на диск, что дает ускорение во много раз. Но, пожалуй, более важны реализации целого ряда статистических функций и удобным интерфейсом для загрузки/обработки данных.

Дальше собственно код для решения следующей задачи. Есть реально большие данные (ибо рука очень устает скролить эти 2000 строк) в формате:

Маленький код для больших данных или Apache Spark за 3 дня - 1

Есть предположение, что дефолт как-то связан с остальными параметрами (кроме первого, к уважаемым Ивановым1…N претензий нет) и нужно построить модель линейной регрессии. Прежде чем начать, стоит оговориться, что это мой первый код на Java, сам я работаю аналитиком и вообще это мой первый запуск Eclipse, настройка Maven и т.д. Так что не стоит ждать изысканных чудес, ниже решение задачи в лоб тем способом, который почему-то заработал. Поехали:
Читать полностью »

Сравнение технологических подходов к решению задач по извлечению данных

2016-11-23 в 20:43, admin, рубрики: data mining, машинное обучение, разбор адресов по КЛАДР/ФИАС, Семантика, Семантический анализ текста, метки: разбор адресов по КЛАДР/ФИАС, Семантический анализ текста

Целью статьи является попытка сравнительного анализа основных подходов в решении задач семантического анализа текстов, их различиях и эффективности на уровне концепций, без учета нюансов, комбинаций вариантов и возможных трюков, способствующих улучшению ожидаемого результата.

На сегодняшний день существует огромное количество материалов описывающий те или иные техники решения задач семантического анализа текстов. Это и латентно-семантический анализ, SVM-анализ, «перенос-свертка» и многое другое. Писать очередную статью про обзор и сравнение конкретных алгоритмов – это значит впустую потрать время.

Мне бы хотелось в рамках нескольких статей обсудить базовые идеи и проблемы, лежащие в основе семантического анализа с точки зрения их практического применения, если можно так выразится, с базовой философско-онтологической точки зрения. В какой степени возможно использовать порождающие грамматики для анализа текста? Накапливать ли варианты написания и разного рода "корпуса" или разрабатывать алгоритмы анализа на основании правил?

В рамках нашего рассуждения я осознанно постараюсь уйти от каких-либо терминов и устоявшихся выражений, ибо как говорил У. Куайн – термины это всего лишь имена в рамках онтологий не имеющие никакого практического значения для решения задач логики и понимания чего-либо в частности.[1] Поэтому, с его позволения, будем опираться на единичные дескрипции Рассела, а проще говоря, давать полные описания в ущерб существующим устоявшимся терминам.

Читать полностью »

Встреча любителей больших данных и искусства

2016-11-23 в 10:02, admin, рубрики: big data, DCA, Блог компании DCA (Data-Centric Alliance), искусство, машинное обучение

Во вторник, 29 ноября 2016 года DI Telegraph и Data-Centric Alliance проведут митап Art of Science.

Art of Science – мероприятие, посвященное анализу данных в искусстве. Наука и искусство – что их связывает? Возможно ли взаимодействие этих двух разных миров? Можно ли с помощью big data, нейронных сетей и методов машинного обучения создавать что-то полезное и прекрасное? Как наука о данных может помочь в решении задач современного искусства? Об этом и многом другом расскажут наши спикеры, представители мира технологического «искусства».
Читать полностью »

Обучаемся самостоятельно: подборка видеокурсов по Computer Science

2016-11-22 в 13:32, admin, рубрики: edisonsoftware, MIT, MOOC, Алгоритмы, Блог компании Edison, искусственный интеллект, курсы, курсы программирования, математика, машинное обучение, Программирование, самообучение

Содержание

Поддержка публикации — компания Edison, которая тестирует критические системы на отказоустойчивость, а так же проектирует и разрабатывает ПО для кластерных вычислений.
Читать полностью »

Поиск звуковых аномалий

2016-11-22 в 5:00, admin, рубрики: anomaly detection, azure machine learning, azure ml, cnn, CNTK, keras, machine learning, numenta, python, RNN, scikit, scikit-learn, TensorFlow, машинное обучение

Попробуем решить задачу поиска аномалий в звуке.

Примеры аномалий звука:

Неисправности в работе двигателя.
Изменения в погоде: дождь, град, ветер.
Аномалии работа сердца, желудка, суставов.
Необычный трафик на дороге.
Неисправности колесных пар у поезда.
Неисправности при посадке и взлете самолета.
Аномалии движения жидкости в трубе, в канале.
Аномалии движения воздуха в системах кондиционирования, на крыле самолета.
Неисправности автомобиля, велосипеда.
Неисправности станка, оборудования.
Расстроенный музыкальный инструмент.
Неправильно взятые ноты песни.
Эхолокация кораблей и подводных лодок.
Читать полностью »

Деконструкция мифа о глубоком обучении. Лекция в Яндексе

2016-11-20 в 14:43, admin, рубрики: DeepMind, ImageNet, Алгоритмы, аппроксимация, Блог компании Яндекс, математика, машинное обучение, мифы и реальность, нейронные сети, рекуррентная нейронная сеть, сверточные нейронные сети, функциональное программирование, черный ящик

Оптимизм по поводу нейронных сетей разделяют не все — или, по крайней мере, уровень такого оптимизма бывает разным. Старший преподаватель факультета компьютерных наук ВШЭ Сергей Бартунов согласен, что нейросетевая область сейчас на подъеме. С другой стороны, он хочет внести в происходящее некоторую ясность, определить реальный потенциал нейросетей. Вне зависимости от точки зрения докладчика, глубокое обучение и правда не проникает в нашу сферу совсем уж стремительными темпами. Традиционные методы обучения всё ещё работают и не обязательно будут вытеснены машинным интеллектом в ближайшей будущем.

Под катом — расшифровка лекции и часть слайдов Сергея.

Читать полностью »

Программа по Deep Learning

2016-11-18 в 12:58, admin, рубрики: artifical intelligence, big data, data mining, deep learning, Блог компании New Professions Lab, глубокое обучение, искусственный интеллект, машинное обучение

Из уважения к тем из вас, кто на дух не переносит здесь рекламу, сразу сообщим — да, это рекламный пост. Можно проскроллить дальше. Тем, кто считает, что реклама не всегда вредна и порой помогает принимать нам важные решения, добро пожаловать под кат.
Читать полностью »

Оптимизация нейросетевой платформы Caffe для архитектуры Intel

2016-11-18 в 11:00, admin, рубрики: Intel AVX, Intel MKL, Intel Modern Code, intel xeon, openmp, Блог компании Intel, векторизация, высокая производительность, машинное обучение, оптимизация, параллельные вычисления, метки: Intel Modern Code

Современные программы, претендующие на звание эффективных, должны учитывать особенности аппаратного обеспечения, на котором они будут исполняться. В частности, речь идёт о многоядерных процессорах, например, таких, как Intel Xeon и Intel Xeon Phi, о больших размерах кэш-памяти, о наборах инструкций, скажем, Intel AVX2 и Intel AVX-512, позволяющих повысить производительность вычислений.

Еле удержались, чтобы не пошутить про руссиано)

Вот, например, Caffe – популярная платформа для разработки нейронных сетей глубокого обучения. Её создали в Berkley Vision and Learning Center (BVLC), она пришлась по душе сообществу независимых разработчиков, которые вносят посильный вклад в её развитие. Платформа живёт и развивается, доказательство тому – статистика на странице проекта в GitHub. Caffe называют «быстрой открытой платформой для глубокого обучения». Можно ли ускорить такой вот «быстрый» набор инструментов? Задавшись этим вопросом, мы решили оптимизировать Caffe для архитектуры Intel.
Читать полностью »

Информация

Комментарии

Рекомендуем