Рубрика «Apache Spark» - 3

Используем Apache Spark как SQL Engine - 1

Привет! Мы, Wrike, ежедневно сталкиваемся с потоком данных от сотен тысяч пользователей. Все эти сведения необходимо сохранять, обрабатывать и извлекать из них ценность. Справиться с этим колоссальным объёмом данных нам помогает Apache Spark.

Мы не будем делать введение в Spark или описывать его положительные и отрицательные стороны. Об этом вы можете почитать здесь, здесь или в официальной документации. В данной статье мы делаем упор на библиотеку Spark SQL и её практическое применение для анализа больших данных.

Читать полностью »

image
Всем привет.
4 января вышла новая версия Apache Spark 1.6 с bug fix новыми возможностями обработки больших данных. На Хабре написано немало статей по использованию этого инструмента от введения до опыта использования в проектах. Spark работает на большинстве операционных систем и его можно запускать в локальном режиме даже на обычном ноутбуке. Используя простоту настройки Spark в этом случае грех не воспользоваться основными функциям. В этой статье мы посмотрим как на ноутбуке быстро настроить обработку большого файла (больше оперативной памяти компьютера) с помощью обычных SQL-запросов. Это позволит делать запросы даже неподготовленному пользователю. Дополнительное подключение iPython (Jupyter) notebook позволит составлять полноценные отчеты. В статье разобран простой пример обработки файла, другие примеры на Python есть тут.
Читать полностью »

IBM продолжает работу с Apache Spark: корпорация запускает Spark-as-a-service - 1

На конференции IBM Insight 2015 было сделано сразу несколько интересных анонсов. Основное — это продолжение развития идеи поддержки проекта Apache Spark. IBM запускает IBM Analytics on Apache Spark, при этом облачной платформой служит Bluemix. Напомним, что в июне корпорация IBM заявила о намерении инвестировать в проект более 300 миллионов долларов за несколько лет. Кроме того, ранее стало известно, что Apache Spark для Linux будет поддерживаться z Systems.

Такая поддержка будет осуществляться в рамках проекта «аналитика на мейнфреймах». Благодаря этому специалисты по дата-майнингу смогут использовать Apache Spark на мощных мейнфреймах z Systems.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js