Рубрика «spark» - 7

Курс молодого бойца для Spark-Scala

2016-06-07 в 13:50, admin, рубрики: big data, data mining, data science, Hadoop, scala, spark, Блог компании Retail Rocket, машинное обучение

Команда Retail Rocket использует узкоспециализированный стек технологий Hadoop + Spark для вычислительного кластера, о котором мы уже писали обзорный материал в самом первом посте нашего инженерного блога на Хабре.

Готовых специалистов для таких технологий найти довольно сложно, особенно, если учесть, что программируем мы исключительно на Scala. Поэтому я стараюсь найти не готовых специалистов, а людей, имеющих минимальный опыт работы, но обладающих большим потенциалом. Мы берем даже людей с частичной занятостью, чтобы было удобно совмещать учебу и работу, если кандидат — студент последних курсов.

Читать полностью »

21 популярная и 21 непопулярная технология в IT

2016-03-31 в 13:14, admin, рубрики: android, big data, cpu, css, docker, flash, geekbrains, github, gpu, Hadoop, iaas, iOS, javascript, node.js, paas, php, ruby, spark, Блог компании GeekBrains, ИИ, препроцессоры, Программирование, Сетевые технологии, технологии

21 популярная и 21 непопулярная технология в IT - 1

Популярно или не очень? Посмотрим, что приходит и уходит в мире разработки.
Программисты любят иронизировать над миром моды, где ветра трендов дуют туда-сюда. Юбки становятся длиннее и короче, цвета приходят и уходят, галстуки становятся шире, потом уже. Но в мире технологий строгость, наука, математика и точность господствуют над причудой.
Это не значит, что программирование — профессия, лишенная тенденций. Разница в том, что тенденции программирования управляются большей эффективностью, увеличенной вариативностью и простотой использования. Новые технологии по большей части затмевают предыдущие. Это меритократия, а не власть прихоти.
Дальше список популярного и не очень популярного среди программистов сегодня. Не все согласятся с этим списком. Это то, что делает программирование бесконечно увлекательной профессией: быстрые изменения, жаркие дебаты и внезапные возвращения.Читать полностью »

Визуализация инструментов обработки данных с Github

2016-03-29 в 9:31, admin, рубрики: big data, github, Hadoop, mysql, nosql, postgres, postgresql, spark, sql, visualization

В своей работе вы используете MySQL, Postgres или Mongo, а может даже Apache Spark? Хотите знать с чего начинались эти проекты и куда они движутся сейчас? В этой статье я представлю соответствующую визуализацию

Визуализация инструментов обработки данных с Github - 1

Читать полностью »

Как использовать Parquet и не поскользнуться

2016-03-21 в 22:22, admin, рубрики: analysis data, analytics, Apache, big data, data formats, distributed computing, parquet, spark, Анализ и проектирование систем, Блог компании Wrike, хранение данных, метки: parquet

Как использовать Parquet и не поскользнуться - 1

О хранении данных в Parquet-файлах не так много информации на Хабре, поэтому надеемся, рассказ об опыте Wrike по его внедрению в связке со Spark вам пригодится.
В частности, в этой статье вы узнаете:

— зачем нужен “паркет”;
— как он устроен;
— когда стоит его использовать;
— в каких случаях он не очень удобен.

Читать полностью »

О пользе технологий больших данных в повседневной жизни

2016-02-19 в 7:04, admin, рубрики: big data, data mining, social network analysis, spark, Блог компании Одноклассники, высокая производительность, Хакатоны

Среди многих исследователей и разработчиков бытует мнение, что инструменты обработки больших данных в области машинного обучения часто избыточны – всегда можно сделать сэмпл, загнать в память и использовать любимые R, Python и Matlab. Но на практике встречаются задачи, когда даже относительно небольшой объем данных, размером в пару гигабайт, обработать в таком стиле затруднительно – и тут-то и могут помочь те самые технологии «больших данных».

Хорошим наглядным примером такой задачи является задача нашего конкурса SNA Hakathon 2016: дан социальный граф одного миллиона пользователей и их демография. Задача — найти скрытые связи в этом графе. Размер предоставленного графа всего два гигабайта в GZip и, казалось бы, применение технологий больших данных здесь не оправданно, но это только на первый взгляд.

Одной из самых важных «фич» в задаче поиска скрытых связей в социальном графе является количество общих друзей. И в расчетном плане это очень тяжелая «фича» — количество узлов, между которыми существуют пути длины 2, на несколько порядков больше, чем количество прямых связей в графе. В результате при расчете граф «взрывается» и из разрежённой матрицы на два гигабайта превращается в плотную терабайтную матрицу.

Казалось бы, для решение этой задачи впору поднимать небольшой кластер, но спешить не стоит: взяв на вооружение принципы обработки больших данных и соответствующие технологии, задачу можно решить и на обычном ноутбуке. Из принципов мы возьмем «разделяй и властвуй» и «руби хвосты сразу», а в качестве инструмента — Apache Spark.
Читать полностью »

Знакомство с Apache Spark

2016-02-05 в 13:49, admin, рубрики: Apache, big data, machine learning, scalability, spark, Блог компании Издательский дом «Питер», книги, Программирование

Здравствуйте, уважаемые читатели!

Мы наконец-то приступаем к переводу серьезной книги о фреймворке Spark:

Знакомство с Apache Spark - 1

Сегодня мы предлагаем вашему вниманию перевод обзорной статьи о возможностях Spark, которую, полагаем, можно с полным правом назвать слегка потрясающей.

Читать полностью »

Параллельные алгоритмы для обработки BigData: подводные камни и непростые решения

2016-01-20 в 7:00, admin, рубрики: algorithms, big data, natural language processing, spark, Алгоритмы, Блог компании 1С-Битрикс

Эта публикация написана по материалам выступления Александра Сербула на осенней конференции BigData Conference.

Большие данные — тема модная и востребованная. Но многих по-прежнему отпугивает избыток теоретических рассуждений и некоторый недостаток практических рекомендаций. В этом посте я хочу отчасти заполнить этот пробел и рассказать об использовании параллельных алгоритмов для обработки больших данных на примере кластеризации товарного каталога из 10 млн позиций.
Читать полностью »

Apache Spark в «боевых» проектах — опыт выживания

2015-12-16 в 11:24, admin, рубрики: BigData, scala, spark, битрикс, Блог компании 1С-Битрикс, Программирование

Предлагаем вашему вниманию материалы по мотивам выступления Александра Сербула на конференции BigData Conference. Я, как автор и докладчик, текст немного отредактировал и добавил современных мыслей и актуальных проблем, поэтому надеюсь пост принесет вам как дополнительные практические полезные знания в отрасли, так и пищу для размышлений — куда податься со своими знаниями. Итак — в бой!
Читать полностью »

Strata+Hadoop World NYC 2015 — как это было

2015-11-18 в 15:15, admin, рубрики: Hadoop, spark, strata, Блог компании DataArt, конференции

Strata+Hadoop World NYC 2015 — как это было - 1

Машинное обучение, облачные технологии, визуализация, Hadoop, Spark, масштабируемость, аналитика, терабайты, петабайты, быстрее, больше, надежнее, лучше — все эти слова каруселью крутятся в голове после трех дней в выставочном зале конференции Strata + Hadoop. И, конечно же, повсюду горы игрушечных слонов — главного символа конференции.

Мы с коллегами из DataArt и DeviceHive не только побывали на конференции, но еще и помогли друзьям из Canonical. На своем стенде они демонстрировали Juju — мощный инструмент, помогающий настроить и развернуть сервисы в облаке быстро и без проблем. Туда же мы принесли свое любимое демо — устройство для мониторинга промышленного оборудования. Никакого занудства и PowerPoint, все вживую — акселерометр SensorTag установили на вентилятор, чтобы отслеживать его вибрацию.

Читать полностью »

Обзор докладов конференции QCon London 2015

2015-04-15 в 14:52, admin, рубрики: akka, badoo, CloudFlare, Google, qcon, spark, Spotify, uber, баду, Блог компании Badoo, Веб-разработка, выступления, микросервисы, слайды

Обзор докладов конференции QCon London 2015 - 1 Привет, меня зовут Макс Матюхин, я PHP-программист в компании Badoo. В прошлом месяце в Лондоне прошла очередная Международная конференция разработчиков QCon 2015. Я побывал на ней и теперь хочу поделиться с вами своими впечатлениями о мероприятии и рассказать о самых интересных, на мой взгляд, выступлениях. Из этой статьи вы узнаете чуть больше про об архитектуру Uber, Spotify, CloudFlare, а также о том, как Google управляет своей инфраструктурой и многом другом.

Впервые QCon состоялась в 2007 году в Лондоне и Сан-Франциско. С тех пор она стабильно набирает популярность и расширяет географию, и в этом году она пройдет в 8 городах. Лондонская QCon проходит в самом сердце британской столицы, в двух шагах от Вестминстерского Аббатства. В разное время на QCon выступали такие известные личности, как Martin Fowler, Kent Beck, Erik Meijer, Steve Vinoski, Joe Armstrong, Rich Hickey и многие другие.
Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «spark» - 7

Курс молодого бойца для Spark-Scala

21 популярная и 21 непопулярная технология в IT

Визуализация инструментов обработки данных с Github

Как использовать Parquet и не поскользнуться

Знакомство с Apache Spark

Параллельные алгоритмы для обработки BigData: подводные камни и непростые решения

Apache Spark в «боевых» проектах — опыт выживания

Strata+Hadoop World NYC 2015 — как это было

Обзор докладов конференции QCon London 2015