Рубрика «big data» - 84

На эксклюзивных условиях представляем для вас полный вариант статьи из журнала Хакер, посвященной разработке на R. Под катом вы узнаете, как выжать максимум скорости при работе с табличными данными в языке R.

data.table: выжимаем максимум скорости при работе с данными в языке R - 1Читать полностью »

Пусть Жираф был не прав,
Но виновен не Жираф,
А тот, кто крикнул из ветвей:
«Жираф большой — ему видней!» (с)

Потребовалось оперативно разобраться с технологией Apache Spark заточенную для использования Big Data. В процессе выяснения активно использовал habrahabr, так что попробую вернуть информационный должок, поделившись приобретенным опытом.

А именно: установкой системы с нуля, настройкой и собственно программированием кода решающего задачу обработки данных для создания модели, вычисляющей вероятность банкротства клиента банка по набору таких признаков как сумма кредита, ставка и т.д.

Больших данных вроде как должно быть много, но почему-то не просто найти то злачное место, где их все щупают. Сначала попробовал вариант с ambari, но на моей Window7 валились ошибки настроек сетевого моста. В итоге прокатил вариант с преднастроенной виртуальной машиной от Cloudera (CDH). Просто устанавливаем VirtualBox, запускаем скачанный файл, указываем основные параметры (память, место) и через 5 минут достопочтенный джин Apache Hadoop жаждет ваших указаний.

Несколько слов, почему именно Spark. Насколько я понимаю, ключевые отличия от изначальной MapReduce в том, что данные удерживаются в памяти, вместо сброса на диск, что дает ускорение во много раз. Но, пожалуй, более важны реализации целого ряда статистических функций и удобным интерфейсом для загрузки/обработки данных.

Дальше собственно код для решения следующей задачи. Есть реально большие данные (ибо рука очень устает скролить эти 2000 строк) в формате:

Маленький код для больших данных или Apache Spark за 3 дня - 1

Есть предположение, что дефолт как-то связан с остальными параметрами (кроме первого, к уважаемым Ивановым1…N претензий нет) и нужно построить модель линейной регрессии. Прежде чем начать, стоит оговориться, что это мой первый код на Java, сам я работаю аналитиком и вообще это мой первый запуск Eclipse, настройка Maven и т.д. Так что не стоит ждать изысканных чудес, ниже решение задачи в лоб тем способом, который почему-то заработал. Поехали:
Читать полностью »

На этой неделе на Хабре уже вышла статья о вечной флешке. Мы хотели бы продолжить обсуждение, предоставив сборный материал из нескольких зарубежных источников, рассказывающих о бессмертном флеш-накопителе. Как известно, некоторое время назад ученые создали накопители нового поколения — наноструктурированные стекла, срок действия которых может составлять миллиарды лет. DVD-диски могут хранить рабочую информацию или семейные фотографии от 20 до 200 лет, но исследователи из Университета Саутгемптона считают, что хранить информацию на одном накопителе можно и дольше — до 13,8 млрд. лет. Примерно столько могут хранить информацию наноструктуры 5D из плавленого кварца — по сути, до конца самого человечества.

Информация на пороге бессмертия - 1 Читать полностью »

Во вторник, 29 ноября 2016 года DI Telegraph и Data-Centric Alliance проведут митап Art of Science.

Встреча любителей больших данных и искусства - 1

Art of Science – мероприятие, посвященное анализу данных в искусстве. Наука и искусство – что их связывает? Возможно ли взаимодействие этих двух разных миров? Можно ли с помощью big data, нейронных сетей и методов машинного обучения создавать что-то полезное и прекрасное? Как наука о данных может помочь в решении задач современного искусства? Об этом и многом другом расскажут наши спикеры, представители мира технологического «искусства».
Читать полностью »

Срок службы компакт-дисков, SSD- и HDD-дисков не превышает 10-20 лет. При этом мировой объем данных растет на 40% каждый год, что стимулирует спрос на накопители, однако долговечность носителей оставляет желать лучшего. Большая часть HDD перестают работать в течение нескольких лет: как правило, это связано с поломкой движущихся частей. Компакт-диски хранятся десятилетиями, но повышение температуры, влажности или механические повреждения делают доступ к информации затруднительным: поверхность диска отслаивается и легко царапается. SSD, рекламируемые сегодня как «неубиваемый» носитель, живут всего несколько лет, и обладают фиксированным количеством циклов перезаписи: циркулирующий внутри электрический заряд рано или поздно угасает даже в отсутствие активного доступа к содержимому. При этом ценность утраченной информации может быть очень высокой: например, это могут быть большие объемы технической документации или исторические архивы, восстановить которые будет невозможно.
«Вечная флешка»: как создать надежный носитель, который сохранит данные на тысячи лет - 1
www.ohmygeek.net

Читать полностью »

С момента прошлой публикации пришлось примеряться к ряду различных задач, связанных тем или иным образом с обработкой данных. Задачи совершенно разные, но во всех случаях инструменты R позволили элегантно и эффективно их решить. Ниже, собственно, кейсы (картинок нет). Читать полностью »

Фонд the Untitled ventures объявил конкурсный отбор проектов в сфере рекламных технологий и новых медиа – Go to AdTech. Победитель получит инвестиционное предложение на $ 100 000. Оператор конкурса – фонд GoTech.

Конкурс проектов в сфере рекламных технологий Go to AdTech - 1

Заявки на участие принимаются до 6 декабря. 12 отобранных проектов будут приглашены на финал в формате road show 16 декабря, где выступят перед руководителями ведущих рекламных агентств и медиа-площадок, а также профильными инвесторами. Все финалисты получат прямой контакт с потенциальными заказчиками, экспертную и PR-поддержку на рекламном рынке. Победитель конкурса получит инвестиционное предложение на $ 100 000 от фонда the Untitled ventures.Читать полностью »

Из уважения к тем из вас, кто на дух не переносит здесь рекламу, сразу сообщим — да, это рекламный пост. Можно проскроллить дальше. Тем, кто считает, что реклама не всегда вредна и порой помогает принимать нам важные решения, добро пожаловать под кат.
Читать полностью »

Добрый день, коллеги. Сегодня хочется трезво посмотреть глазами инженера на так популярные сейчас искусственный интеллект и Deep learning, упорядочить, выстроить факты и выработать выигрышную стратегию – как с этим … взлететь, пролететь и не упасть кому-нибудь на голову? Потому-что, когда дело от лабораторных моделей на python/matplotlib/numpy или lua доходит до высоконагруженного production в клиентском сервисе, когда ошибка в исходных данных сводит на нет все усилия – становится не то, что весело, а даже начинается нумерологический средневековый экстаз и инженеры начинают сутки напролет танцевать, в надежде излечиться от новомодной чумы )

Искусственный интеллект, вызовы и риски – глазами инженера - 1
Танцующие инженеры, тщетно надеющиеся исцелиться
Читать полностью »

Холдинг Mail.Ru Group совместно с «НПО Аналитика» (российский разработчик системы анализа потребительского поведения на основе данных от устройств, подключенных к Wi-Fi) создали систему анализа Big Data для оценки эффективности рекламы офлайн-магазинов, говорится в сообщении холдинга. Система позволит рекламодателям лучше узнать свою офлайн-аудиторию и изучить ее реакцию на рекламные кампании.

В частности, Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js