Рубрика «spark» - 6

Как писать меньше кода для MR, или Зачем миру ещё один язык запросов? История Yandex Query Language

2016-10-12 в 14:44, admin, рубрики: big data, Hadoop, MapReduce, netty, realtime mapreduce, s-expressions, spark, sql, Алгоритмы, Анализ и проектирование систем, Блог компании Яндекс, инфраструктура, Промышленное программирование, языки запросов

Исторически во многих уголках Яндекса разрабатывались свои системы хранения и обработки больших объемов данных — с учетом специфики конкретных проектов. При такой разработке в приоритете всегда была эффективность, масштабируемость и надежность, поэтому на удобные интерфейсы для использования подобных систем времени, как правило, не оставалось. Полтора года назад разработку крупных инфраструктурных компонентов выделили из продуктовых команд в отдельное направление. Цели были следующими: начать двигаться быстрее, уменьшить дублирование среди схожих систем и снизить порог входа новых внутренних пользователей.

Очень скоро мы поняли, что тут мог бы здорово помочь общий высокоуровневый язык запросов, который бы предоставлял единообразный доступ к уже имеющимся системам, а также избавлял от необходимости заново реализовывать типовые абстракции на низкоуровневых примитивах, принятых в этих системах. Так началась разработка Yandex Query Language (YQL) — универсального декларативного языка запросов к системам хранения и обработки данных. (Сразу скажу, что мы знаем, что это уже не первая штука в мире, которая называется YQL, но мы решили, что это делу не мешает, и оставили название.)

В преддверии нашей встречи, которая будет посвящена инфраструктуре Яндекса, мы решили рассказать о YQL читателям Хабрахабра.

Читать полностью »

Видеозапись вебинара «Инструменты для работы Data Scientist»

2016-09-29 в 10:24, admin, рубрики: algorithms, big data, data mining, data science, deep learning, FlyElephant, Hadoop, HPC, spark, Блог компании FlyElephant, вебинар, высокая производительность, машинное обучение, Облачные вычисления

Видеозапись вебинара «Инструменты для работы Data Scientist» - 1

Вчера наша команда провела вебинар на тему «Инструменты для работы Data Scientist». В его рамках мы рассмотрели, кто такой data scientist и какими инструментами он пользуется. Поговорили о платформе FlyElephant и чем она может быть полезной для работы data scientist’а.
Читать полностью »

Welcome to Spark… on Java: Интервью с Евгением Борисовым

2016-09-27 в 13:05, admin, рубрики: big data, java, joker, jokerconf, spark, Блог компании JUG.ru Group, конференция, тренинг

Big Data – это проблема. Количество информации растет с каждым днем, и она накапливается как снежный ком. Прекрасно то, что проблема эта имеет решения, только в мире JVM больший данных процессят десятки тысяч проектов.

В 2012 году увидел свет фреймворк Apache Spark, разработанный на Scala и рассчитанный на повышение производительности определенных классов задач в работе с Big Data. Проекту уже 4 года он повзрослел и дорос до версии 2.0, к которой (на самом деле уже начиная с версии 1.3-1.5) имеет мощный и удобный API для работы с Java. Чтобы понять, для кого это все надо, какие именно задачи стоит решать при помощи Spark, а какие не стоит, мы поговорили с Евгением EvgenyBorisov Борисовым, автором тренинга «Welcome to Spark», который пройдет 12-13 октября в Петербурге.

Welcome to Spark… on Java: Интервью с Евгением Борисовым - 1
Читать полностью »

Твоя Data такая большая: Введение в Spark на Java

2016-09-12 в 12:21, admin, рубрики: big data, BigData, frameworks, java, java vs scala, joker, scala, spark, Блог компании JUG.ru Group

Apache Spark – универсальный инструмент для процессинга больших данных, с которым можно писать в Hadoop с различных СУБД, стримить всякие источники в реальном времени, параллельно делать с данными какую-нибудь сложную обработку, и все это не при помощи каких-то батчей, скриптов и SQL-запросов, а при помощи функционального подхода.

Твоя Data такая большая: Введение в Spark на Java - 1

Про Spark ходит несколько мифов:

Spark’y нужен Hadoop: не нужен!
Spark’у нужна Scala: не обязательно!

Почему? Смотрите под катом.
Читать полностью »

R и Spark

2016-08-25 в 13:54, admin, рубрики: big data, Microsoft Azure, R, spark, машинное обучение

Spark – проект Apache, предназначенный для кластерных вычислений, представляет собой быструю и универсальную среду для обработки данных, в том числе и для машинного обучения. Spark также имеет API и для R(пакет SparkR), который входит в сам дистрибутив Spark. Но, помимо работы с данным API, имеется еще два альтернативных способа работы со Spark в R. Итого, мы имеем три различных способа взаимодействия с кластером Spark. В данном посте приводиться обзор основных возможностей каждого из способов, а также, используя один из вариантов, построим простейшую модель машинного обучения на небольшом объеме текстовых файлов (3,5 ГБ, 14 млн. строк) на кластере Spark развернутого в Azure HDInsight.
Читать полностью »

Анализ логов с помощью SQL?

2016-07-10 в 12:35, admin, рубрики: data mining, php, spark, sql, Разработка веб-сайтов

Представьте, что мы хотим написать на обычном SQL запрос не в базу данных, а к логам. В работе может возникнуть задача анализа логов, для которой потребуется делать запросы на SQL к неструктурированному набору данных, который даже не находится в СУБД. В этой заметке я расскажу о примере использования Spark SQL для выявления правил (логики) выбора необходимых документов из большого хранилища.

Читать полностью »

Создание индексов с помощью Spark SQL

2016-07-09 в 5:59, admin, рубрики: big data, php, spark, yii2

Основная цель статьи — поделиться практическим опытом создания и анализа индексов с помощью Spark SQL. Разумеется, это настолько обширная тема, что данная статья только поверхностно коснётся основных подходов в контексте упомянутой задачи. Создание индексов часто требуется после сложного анализа огромного числа документов. Допустим, аналитическая система записывает в лог уникальный идентификатор документа и ряд его метрик. Необходимо проанализировать этот отчёт, чтобы выбрать только необходимые идентификаторы документов.

Читать полностью »

Spark Summit 2016: обзор и впечатления

2016-07-04 в 11:34, admin, рубрики: analytics, Apache Spark, big data, data mining, data science, machine learning, spark, wrike, Анализ и проектирование систем, Блог компании Wrike, хранение данных

Spark Summit 2016: обзор и впечатления - 1

В июне прошло одно из самых крупных мероприятий мира в сфере big data и data science — Spark Summit 2016 в Сан-Франциско. Конференция собрала две с половиной тысячи человек, включая представителей крупнейших компаний (IBM, Intel, Apple, Netflix, Amazon, Baidu, Yahoo, Cloudera и так далее). Многие из них используют Apache Spark, включая контрибьюторов в open source и вендоров собственных разработок в big data/data science на базе Apache Spark.

Мы в Wrike активно используем Spark для задач аналитики, поэтому не могли упустить возможности из первых рук узнать, что происходит нового на этом рынке. С удовольствием делимся своими наблюдениями.

Читать полностью »

Отчет с Moscow Data Science Meetup 27 мая

2016-06-24 в 14:45, admin, рубрики: big data, data science, kaggle, mail.ru, spark, Алгоритмы, Блог компании Mail.Ru Group, машинное обучение

27 мая в офисе Mail.Ru Group прошёл очередной Moscow Data Science Meetup. На встрече собирались представители крупных российских компаний и научных организаций, а также энтузиасты в области машинного обучения, рекомендательных систем анализа социальных графов и смежных дисциплин. Гости делились друг с другом своим опытом решения практических задач анализа данных. Предлагаем вашему вниманию видеозаписи и презентации трёх докладов, представленных на встрече.
Читать полностью »

Началось соревнование «Make with Ada» для разработчиков встраиваемых систем

2016-06-21 в 17:39, admin, рубрики: spark, верификация, конкурс, параллельное программирование, программирование микроконтроллеров, Совершенный код, Спортивное программирование, Тестирование IT-систем

Началось соревнование «Make with Ada» для разработчиков встраиваемых систем - 1

AdaCore организует новый конкурс для разработчиков. Как и в прошлые разы, на подготовку даётся существенно больше времени, чем в олимпиадах по иноформатике. Это как раз подходит тем, кому не нравятся соревнования по быстрому написанию страшного кода, который потом только выбросить.

Сегодня на повестке дня — разработка для ARM на голом железе и технологии верификации. Общий призовой фонд — более 8000€.
Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «spark» - 6

Как писать меньше кода для MR, или Зачем миру ещё один язык запросов? История Yandex Query Language

Видеозапись вебинара «Инструменты для работы Data Scientist»

Welcome to Spark… on Java: Интервью с Евгением Борисовым

Твоя Data такая большая: Введение в Spark на Java

R и Spark

Анализ логов с помощью SQL?

Создание индексов с помощью Spark SQL

Spark Summit 2016: обзор и впечатления

Отчет с Moscow Data Science Meetup 27 мая

Началось соревнование «Make with Ada» для разработчиков встраиваемых систем