Обзор наиболее интересных материалов по высокой производительности (15 — 21 сентября 2014)

Обзор наиболее интересных материалов по высокой производительности (15 — 21 сентября 2014)
Представляю вашему вниманию первый выпуск обзора наиболее интересных материалов по высокой производительности. Когда я готовил очередной выпуск ^[1] обзора наиболее интересных материалов по анализу данных и машинному обучению, то понял, что выделяется вполне себе самодостаточная тематика собранных материалов. Надеюсь, что данный тип обзоров будет тоже полезен и интересен. Буду стараться расширять список ресурсов за которыми слежу при подготовке данных обзоров.

Материалы по высокой производительности

Использование Apache Samza в LinkedIn ^[2]
Статья с блога LinkedIn, о том как они используют Apache Samza в своем приложении и как данный продукт помог решить проблемы при работе с данными.
Кто и как использует Hadoop ^[3]
Интересная статья о текущем состоянии дел в экосистеме Hadoop: кто и как её пользуется, а также о преспективах развития.
Ближайшие встречи по Data Science в Москве ^[4]
В ближайшее время намечается сразу несколько интересных митапов, поэтому я решил опубликовать небольшой список ближайших интересных встреч по теме анализа данных и высокой производительности в Москве.
Новый тип агрегации в Elasticsearch ^[5]
Статья с блога Elasticsearch о новой функции агрегации top_hits, который добавился к большому списку таковых функций в версии 1.3.0.
Новая версия Apache Tez ^[6]
Небольшая статья с блога компании Hortonworks о возможностях новой версии Apache Tez 0.5.
SQL-запросы к Hadoop с помощью Apache Drill ^[7]
Небольшая статья про Apache Drill, который позволяет работать с Hadoop через синтаксис SQL-запросов.
Исследование влияния многопользовательской нагрузки на Cloudera Impala ^[8]
Статья с блога компании Cloudera, в которой приведены результаты интересного исследования, проведенного на продукте Cloudera Impala при различных профилях нагрузки.
10 лучших презентаций с SlideShare по Data Science и Big Data ^[9]
Статья со списком из 10 презентаций с сайта SlideShare по темам Data Science и Big Data с наибольшим количеством просмотров.
Использование дискового пространства в MongoDB ^[10]
Небольшая статья, которая поможет лучше понять каким образом NoSQL база данных MongoDB использует дисковое пространство.
Слабая изолированность — серьезная проблема ^[11]
Интересные размышления об уровнях изолированности баз данных.
10 уроков от Microsoft Azure ^[12]
Очень интересный пост, который дает 10 полезных рекомендаций для правильного масштабирования приложения при использовании облака Microsoft Azure, основанных на собственном опыте.
Использование Redis в Twitter ^[13]
Интересное видео, в котором Yao Yu расскажет об использовании Redis в компании Twiiter для масштабирования. А в статье по ссылке можно будет найти отличный материал по мотивам данного выступления.
KDD 2104: Google KV и Topic Modeling ^[14]
Авторы блога компании URX делятся своими впечатлениями от недавно прошедшей в Нью-Йорке конференции KDD 2014, а именно рассказывают о системе под названием Google Knowledge Vault, которая активно используется в Google для улучшения качества поиска, а также они расскажут о тематическом моделировании (Topic Modeling).
Почему в Loggly выбрали AWS Route 53, а не ELB ^[15]
Интересная статья с блога компании Loggly, о том почему они выбрали Amazon Route 53 DNS, а не AWS Elastic Load Balancing (ELB).
FireBox: строительный блок для Warehouse-Scale Computers в 2020 году ^[16]
Видео с конференции FAST'14 под названием «FireBox: A Hardware Building Block for 2020 Warehouse-Scale Computers», в котором Krste Asanović (University of California, Berkeley) представляет свой взгляд на будущее развития Warehouse Scale Computers (WSC).
О кэшировании на @Scale ^[17]
Авторы блога компании OpenDNS делятся впечатлениями от конференции @Scale, организованной компанией Facebook, и рассказывают о различных современных подходах к кэшированию, которые были описаны на конференции.
Facebook полностью отключил один дата-центр для проверки отказоустойчивости ^[18]
Jay Parikh из Facebook на конференции @Scale, прошедшей в Сан-Франциско, рассказал про интересный эксперимент, проведенный в Facebook, а именно о полном отключении одного из дата-центров для проверки общей отказоустойчивости системы.
Анонс Apache Spark 1.1 ^[19]
Анонс новой версии Apache Spark 1.1 и описание основных нововведений.
Потоковая обработка данных в Apache Spark 1.1 ^[20]
Статья о новых возможностях потоковой обработки данных в Apache Spark 1.1 и о вариантах использования данной функциональности.
Статистические вычисления в Apache Spark 1.1 ^[21]
Описание расширенных возможностей статистических вычислений в Apache Spark 1.1.
Метрики Elasticsearch ^[22]
Небольшая статья с блога компании Compose про метрики Elasticsearch.
Новости от Apache Software Foundation Blog ^[23]
Небольшой список последних новостей от Apache Software Foundation Blog.
Еженедельный дайджест от Rackspace ^[24]
Еженедельный дайджест интересных материалов от компании Rackspace.
10 способов работы с Hadoop через SQL-запросы ^[25]
10 инструментов и способов для работы с Hadoop через SQL-запросы и небольшое описание каждого.
Обзор наиболее интересных материалов по Hadoop №87 ^[26]
Традиционный дайджест наиболее интересных материалов по теме Hadoop за неделю от портала Hadoop Weekly.
174 драйвера для MongoDB с открытым исходным кодом ^[27]
Большой набор из 174 драйверов с открытым исходным кодом для NoSQL базы данных MongoDB для разных языков программирования.
Что нового в RavenDB 3.0 ^[28]
Описание возможностей новой версии популярный базы данных RavenDB.
Синхронизация MongoDB и Elasticsearch ^[29]
Небольшая статья про сервис Transporter, который позволяет оперативно синхронизовать MongoDB и ElasticSearch.
Введение в HBase ^[30]
Статья, содержащая видео и поясняющий материал по теме HBase — хранилища данных из экосистемы Hadoop, а также рассказывающая о ситуациях, когда стоит применять данное решение и когда не стоит.
Использование OCRFile в Cascading и Apache Crunch ^[31]
Пример использования OCRFile для Cascading и Apache Crunch, которое позволяет улучшить производительность их работы.
Приглашаем на HadoopKitchen ^[32]
Объявление о встрече, посвященной Hadoop, которая состоится в офисе Mail.ru. Я тоже собираюсь посетить данное мероприятие.
Как добиться успеха в Big Data ^[33]
Небольшая статья с инфографикой, которая расскажет об основных факторах, которые влияют на успешность компании в области Big Data.
Vincent Granville о Big Data ^[34]
Vincent Granville — автор портала DataScienceCentral, приводит свои размышления и дает определение понятия Big Data.
5 ключевых идей для понимания Big Data ^[35]
Интересный пост от портала Smart Data Collective, который рассказывает 5 ключевых моментах, которые помогут извелкать пользу из данных наиболее эффективно.

Автор: moat

Источник ^[36]

Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/vy-sokaya-proizvoditel-nost/70086

Ссылки в тексте:

[1] выпуск: http://habrahabr.ru/post/237583/

[2] Использование Apache Samza в LinkedIn: http://engineering.linkedin.com/samza/real-time-insights-linkedins-performance-using-apache-samza

[3] Кто и как использует Hadoop: http://siliconangle.com/blog/2014/09/19/the-state-of-hadoop-2014-whos-using-it-and-why/

[4] Ближайшие встречи по Data Science в Москве: http://igorsubbotin.blogspot.ru/2014/09/upcoming-meetups-1.html

[5] Новый тип агрегации в Elasticsearch: http://www.elasticsearch.org/blog/top-hits-aggregation/

[6] Новая версия Apache Tez: http://hortonworks.com/blog/introducing-apache-tez-0-5/

[7] SQL-запросы к Hadoop с помощью Apache Drill: https://gigaom.com/2014/09/16/sql-on-hadoop-tech-apache-drill-is-ready-to-use-and-part-of-maprs-distro/

[8] Исследование влияния многопользовательской нагрузки на Cloudera Impala: http://blog.cloudera.com/blog/2014/09/how-impala-supports-mixed-workloads-in-multi-user-environments/

[9] 10 лучших презентаций с SlideShare по Data Science и Big Data: http://igorsubbotin.blogspot.ru/2014/09/top-10-presentations-about-data-science-big-data-on-slideshare.html

[10] Использование дискового пространства в MongoDB: http://engineering.objectrocket.com/2014/09/18/understanding-mongodb-space-usage/

[11] Слабая изолированность — серьезная проблема: http://www.bailis.org/blog/understanding-weak-isolation-is-a-serious-problem/

[12] 10 уроков от Microsoft Azure: http://www.troyhunt.com/2014/09/10-things-i-learned-about-rapidly.html

[13] Использование Redis в Twitter: http://igorsubbotin.blogspot.ru/2014/09/redis-twitter.html

[14] KDD 2104: Google KV и Topic Modeling: http://blog.urx.com/urx-blog/2014/9/10/kdd-retro-google-knowledge-vault-and-topic-modeling

[15] Почему в Loggly выбрали AWS Route 53, а не ELB: https://www.loggly.com/blog/why-aws-route-53-over-elastic-load-balancing/

[16] FireBox: строительный блок для Warehouse-Scale Computers в 2020 году: http://igorsubbotin.blogspot.ru/2014/09/firebox-warehouse-scale-computer-in-2020.html

[17] О кэшировании на @Scale: http://engineering.opendns.com/2014/09/16/caching-scale/

[18] Facebook полностью отключил один дата-центр для проверки отказоустойчивости: http://www.datacenterknowledge.com/archives/2014/09/15/facebook-turned-off-entire-data-center-to-test-resiliency/

[19] Анонс Apache Spark 1.1: http://databricks.com/blog/2014/09/11/announcing-spark-1-1.html

[20] Потоковая обработка данных в Apache Spark 1.1: http://databricks.com/blog/2014/09/16/spark-1-1-the-state-of-spark-streaming.html

[21] Статистические вычисления в Apache Spark 1.1: http://databricks.com/blog/2014/08/27/statistics-functionality-in-spark.html

[22] Метрики Elasticsearch: https://blog.compose.io/elasticsearch-metrics/?utm_source=feedly&utm_reader=feedly&utm_medium=rss&utm_campaign=elasticsearch-metrics

[23] Новости от Apache Software Foundation Blog: https://blogs.apache.org/foundation/entry/the_apache_news_round_up

[24] Еженедельный дайджест от Rackspace: http://www.rackspace.com/blog/rackspace-weekly-digest-september-19/

[25] 10 способов работы с Hadoop через SQL-запросы: http://bigdataanalyticsnews.com/10-ways-query-hadoop-sql/

[26] Обзор наиболее интересных материалов по Hadoop №87: http://www.hadoopweekly.com/Hadoop-Weekly-87.html

[27] 174 драйвера для MongoDB с открытым исходным кодом: http://www.findbestopensource.com/search/?query=mongo+db+driver

[28] Что нового в RavenDB 3.0: http://java.dzone.com/articles/what-new-ravendb-30-ravenfs

[29] Синхронизация MongoDB и Elasticsearch: https://blog.compose.io/continuously-synchronize-your-mongodb-data-to-elasticsearch/?utm_source=feedly&utm_reader=feedly&utm_medium=rss&utm_campaign=continuously-synchronize-your-mongodb-data-to-elasticsearch

[30] Введение в HBase: http://datasciencereport.com/2014/09/15/edu-video-introduction-to-hbase-and-when-to-use-it/#.VBgKKxZabFI

[31] Использование OCRFile в Cascading и Apache Crunch: http://hortonworks.com/blog/using-orcfile-cascading-apache-crunch/

[32] Приглашаем на HadoopKitchen: http://habrahabr.ru/company/mailru/blog/237131/

[33] Как добиться успеха в Big Data: http://www.bigdata-startups.com/BigData-startup/achieve-big-success-big-data/

[34] Vincent Granville о Big Data: http://www.datasciencecentral.com/profiles/blogs/defining-big-data

[35] 5 ключевых идей для понимания Big Data: http://smartdatacollective.com/rick-delgado/235426/5-keys-successfully-using-big-data

[36] Источник: http://habrahabr.ru/post/237581/

Нажмите здесь для печати.