Рубрика «spark» - 8

Обучение на больших данных: Spark MLlib

2015-02-26 в 13:53, admin, рубрики: Apache, big data, data mining, Hadoop, python, spark, анализ данных, Большие данные, машинное обучение, разработка

Привет!

В прошлый раз мы познакомились с инструментом Apache Spark, который в последнее время становится чуть ли не самым популярным средством для обработки больших данных и в частности, Large Scale Machine Learning. Сегодня мы рассмотрим подробнее библиотеку MlLib, а именно — покажем, как решать задачи машинного обучения — классификации, регресии, кластеризации, а также коллаборативной фильтрации. Кроме этого покажем, как можно исследовать признаки с целью отбора и выделения новых (т.н. Feature Engineering, о котором мы говорили ранее, причем не один раз).
Читать полностью »

Apache Spark: что там под капотом?

2015-02-26 в 0:46, admin, рубрики: Apache, big data, big data analytics, data mining, Hadoop, mpp, spark, sparsql, параллельные вычисления

Вступление

В последнее время проект Apache Spark привлекает к себе огромное внимание, про него написано большое количество маленьких практических статей, он стал частью Hadoop 2.0. Плюс он быстро оброс дополнительными фреймворками, такими, как Spark Streaming, SparkML, Spark SQL, GraphX, а кроме этих «официальных» фреймворков появилось море проектов — различные коннекторы, алгоритмы, библиотеки и так далее. Достаточно быстро и уверенно разобраться в этом зоопарке при отсутсвие серьезной документации, особенно учитывая факт того, что Spark содержит всякие базовые кусочки других проектов Беркли (например BlinkDB) — дело непростое. Поэтому решил написать эту статью, чтобы немножко облегчить жизнь занятым людям.

Небольшая предыстория:

Spark — проект лаборатории UC Berkeley, который зародился примерно в 2009г. Основатели Спарка — известные ученые из области баз данных, и по философии своей Spark в каком-то роде ответ на MapReduce. Сейчас Spark находится под «крышей» Apache, но идеологи и основные разработчики — те же люди.

Spoiler: Spark в 2-х словах

Spark можно описать одной фразой так — это внутренности движка массивно-параллельной СУБД. То есть Spark не продвигает свое хранилище, а живет сверх других (HDFS — распределенная файловая система Hadoop File System, HBase, JDBC, Cassandra,… ). Правда стоит сразу отметить проект IndexedRDD — key/value хранилище для Spark, которое наверное скоро будет интегрировано в проект.Также Spark не заботится о транзакциях, но в остальном это именно движок MPP DBMS.

RDD — основная концепция Spark

Ключ к пониманию Spark — это RDD: Resilient Distributed Dataset. По сути это надежная распределенная таблица (на самом деле RDD содержит произвольную коллекцию, но удобнее всего работать с кортежами, как в реляционной таблице). RDD может быть полностью виртуальной и просто знать, как она породилась, чтобы, например, в случае сбоя узла, восстановиться. А может быть и материализована — распределенно, в памяти или на диске (или в памяти с вытеснением на диск). Также, внутри, RDD разбита на партиции — это минимальный объем RDD, который будет обработан каждым рабочим узлом.

Читать полностью »

Введение в Apache Spark

2015-02-17 в 10:36, admin, рубрики: Apache, big data, data mining, Hadoop, python, spark, машинное обучение, разработка, метки: Big Data

Привет!

В прошлый раз мы рассмотрели замечательный инструмент Vowpal Wabbit, который бывает полезен в случаях, когда приходится обучаться на выборках, не помещающихся в оперативную память. Напомним, что особенностью данного инструмента является то, что он позволяет строить в первую очередь линейные модели (которые, к слову, имеют хорошую обобщающую способность), а высокое качество алгоритмов достигается за счет отбора и генерации признаков, регуляризации и прочих дополнительных приемов. Сегодня рассмотрим инструмент, который более популярен и предназначен для обработки больших обьемов данных — Apache Spark.
Читать полностью »

Autodesk и Voxel8 делают 3D-печать электроники реальностью

2015-02-01 в 2:18, admin, рубрики: 3D-печать, 3d-принтер, autodesk, project wire, spark, Spark Powered, voxel8, квадрокоптеры

Мы еще на один шаг ближе к 3D-печати электронных устройств во всей их полноте. Autodesk разрабатывает Project Wire, дизайнерский инструмент для создания 3D-печатных электронных устройств, разработанный на базе Spark. В партнерстве с Voxel8 мы сделали возможным изготовление трехмерных контуров всевозможных форм.

Мы считаем, что будущие электронные устройства будут печататься, а не собираться. Печататься слой за слоем, как единый объект, а не собираться из отдельных частей. Хотя 3D-печать часто ассоциируется с одноразовыми пластиковыми «безделушками», вместе с Voxel8 мы хотим сделать функциональные печатные устройства реальностью. Сегодня мы знакомимся с миром электроники, претворяя в жизнь разработку моделей, имеющих встроенные в них проводники.
Читать полностью »

Hadoop: что, где и зачем

2014-10-16 в 10:15, admin, рубрики: big data, Hadoop, spark, пятилетказатригода

Hadoop: что, где и зачем

Развеиваем страхи, ликвидируем безграмотность и уничтожаем мифы про железнорождённого слона. Под катом обзор экосистемы Hadoop-а, тенденции развития и немного личного мнения.
Читать полностью »

Highscreen выпустил самые дешевые смартфоны с 2- и 4-ядерными процессорами

2013-05-16 в 11:27, admin, рубрики: android, highscreen, spark, Блог компании SmartGadget, Новости, Смартфоны и коммуникаторы, метки: highscreen, spark, новости

Получил сегодня пресс-релиз о двух новых смартфонах Highscreen – Spark и Omega Q. Первый стоит 4 тысячи рублей, второй – 9 тысяч. При этом первый, по заявлению указанного бренда, является «самым дешевым в России аппаратом с двухъядерным процессором», а второй – «самым дешевым с четырехъядерным» Highscreen выпустил самые дешевые смартфоны с 2 и 4 ядерными процессорами
Читать полностью »

Обзор китайских планшетов Ainol Spark и Ainol Venus: Цена vs Качество

2013-04-09 в 15:06, admin, рубрики: Ainol, novo 7, rozetked, spark, Venus, Блог компании Rozetked, метки: Ainol, novo 7, rozetked, spark

Обзор китайских планшетов Ainol Spark и Ainol Venus: Цена vs Качество

Люди всегда гонятся за ценой (и это логично), но им нужно и качество.

Все прекрасно знают о китайской продукции, но все боятся покупать ее. В большинстве своем «made in China» это действительно товар не лучшего качества, но сейчас есть бренды, достойные как минимум уважения. А признания? А признание они уже получили. Это, например, ZTE, Meizu, Lenovo.

Возможно, скоро к этому числу примкнет Ainol. На днях ко мне в руки попали два планшета этой компании, и, знаете, я удивился… и цене, и качеству.Читать полностью »

Spark — патрон для лампочки с Wi-fi на kickstarter

2012-11-19 в 23:11, admin, рубрики: Kickstarter, spark, метки: Kickstarter, spark

Spark — патрон для лампочки с Wi fi на kickstarter

Только самые ленивые не пытаются подружить домашние устройства и бытовые приборы с всемирной паутиной. К сожалению, такие проекты остаются достаточно сложными в исполнении. Устройство Spark направлено упростить жизнь рядовому обитателю умного дома.Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «spark» - 8

Обучение на больших данных: Spark MLlib

Apache Spark: что там под капотом?

Вступление

Небольшая предыстория:

Spoiler: Spark в 2-х словах

RDD — основная концепция Spark

Введение в Apache Spark

Autodesk и Voxel8 делают 3D-печать электроники реальностью

Hadoop: что, где и зачем

Highscreen выпустил самые дешевые смартфоны с 2- и 4-ядерными процессорами

Обзор китайских планшетов Ainol Spark и Ainol Venus: Цена vs Качество

Spark — патрон для лампочки с Wi-fi на kickstarter