Обзор наиболее интересных материалов по высокой производительности (15 — 21 сентября 2014)
Представляю вашему вниманию первый выпуск обзора наиболее интересных материалов по высокой производительности. Когда я готовил очередной выпуск [1] обзора наиболее интересных материалов по анализу данных и машинному обучению, то понял, что выделяется вполне себе самодостаточная тематика собранных материалов. Надеюсь, что данный тип обзоров будет тоже полезен и интересен. Буду стараться расширять список ресурсов за которыми слежу при подготовке данных обзоров.
Материалы по высокой производительности
- Использование Apache Samza в LinkedIn [2]
Статья с блога LinkedIn, о том как они используют Apache Samza в своем приложении и как данный продукт помог решить проблемы при работе с данными.
- Кто и как использует Hadoop [3]
Интересная статья о текущем состоянии дел в экосистеме Hadoop: кто и как её пользуется, а также о преспективах развития.
- Ближайшие встречи по Data Science в Москве [4]
В ближайшее время намечается сразу несколько интересных митапов, поэтому я решил опубликовать небольшой список ближайших интересных встреч по теме анализа данных и высокой производительности в Москве.
- Новый тип агрегации в Elasticsearch [5]
Статья с блога Elasticsearch о новой функции агрегации top_hits, который добавился к большому списку таковых функций в версии 1.3.0.
- Новая версия Apache Tez [6]
Небольшая статья с блога компании Hortonworks о возможностях новой версии Apache Tez 0.5.
- SQL-запросы к Hadoop с помощью Apache Drill [7]
Небольшая статья про Apache Drill, который позволяет работать с Hadoop через синтаксис SQL-запросов.
- Исследование влияния многопользовательской нагрузки на Cloudera Impala [8]
Статья с блога компании Cloudera, в которой приведены результаты интересного исследования, проведенного на продукте Cloudera Impala при различных профилях нагрузки.
- 10 лучших презентаций с SlideShare по Data Science и Big Data [9]
Статья со списком из 10 презентаций с сайта SlideShare по темам Data Science и Big Data с наибольшим количеством просмотров.
- Использование дискового пространства в MongoDB [10]
Небольшая статья, которая поможет лучше понять каким образом NoSQL база данных MongoDB использует дисковое пространство.
- Слабая изолированность — серьезная проблема [11]
Интересные размышления об уровнях изолированности баз данных.
- 10 уроков от Microsoft Azure [12]
Очень интересный пост, который дает 10 полезных рекомендаций для правильного масштабирования приложения при использовании облака Microsoft Azure, основанных на собственном опыте.
- Использование Redis в Twitter [13]
Интересное видео, в котором Yao Yu расскажет об использовании Redis в компании Twiiter для масштабирования. А в статье по ссылке можно будет найти отличный материал по мотивам данного выступления.
- KDD 2104: Google KV и Topic Modeling [14]
Авторы блога компании URX делятся своими впечатлениями от недавно прошедшей в Нью-Йорке конференции KDD 2014, а именно рассказывают о системе под названием Google Knowledge Vault, которая активно используется в Google для улучшения качества поиска, а также они расскажут о тематическом моделировании (Topic Modeling).
- Почему в Loggly выбрали AWS Route 53, а не ELB [15]
Интересная статья с блога компании Loggly, о том почему они выбрали Amazon Route 53 DNS, а не AWS Elastic Load Balancing (ELB).
- FireBox: строительный блок для Warehouse-Scale Computers в 2020 году [16]
Видео с конференции FAST'14 под названием «FireBox: A Hardware Building Block for 2020 Warehouse-Scale Computers», в котором Krste Asanović (University of California, Berkeley) представляет свой взгляд на будущее развития Warehouse Scale Computers (WSC).
- О кэшировании на @Scale [17]
Авторы блога компании OpenDNS делятся впечатлениями от конференции @Scale, организованной компанией Facebook, и рассказывают о различных современных подходах к кэшированию, которые были описаны на конференции.
- Facebook полностью отключил один дата-центр для проверки отказоустойчивости [18]
Jay Parikh из Facebook на конференции @Scale, прошедшей в Сан-Франциско, рассказал про интересный эксперимент, проведенный в Facebook, а именно о полном отключении одного из дата-центров для проверки общей отказоустойчивости системы.
- Анонс Apache Spark 1.1 [19]
Анонс новой версии Apache Spark 1.1 и описание основных нововведений.
- Потоковая обработка данных в Apache Spark 1.1 [20]
Статья о новых возможностях потоковой обработки данных в Apache Spark 1.1 и о вариантах использования данной функциональности.
- Статистические вычисления в Apache Spark 1.1 [21]
Описание расширенных возможностей статистических вычислений в Apache Spark 1.1.
- Метрики Elasticsearch [22]
Небольшая статья с блога компании Compose про метрики Elasticsearch.
- Новости от Apache Software Foundation Blog [23]
Небольшой список последних новостей от Apache Software Foundation Blog.
- Еженедельный дайджест от Rackspace [24]
Еженедельный дайджест интересных материалов от компании Rackspace.
- 10 способов работы с Hadoop через SQL-запросы [25]
10 инструментов и способов для работы с Hadoop через SQL-запросы и небольшое описание каждого.
- Обзор наиболее интересных материалов по Hadoop №87 [26]
Традиционный дайджест наиболее интересных материалов по теме Hadoop за неделю от портала Hadoop Weekly.
- 174 драйвера для MongoDB с открытым исходным кодом [27]
Большой набор из 174 драйверов с открытым исходным кодом для NoSQL базы данных MongoDB для разных языков программирования.
- Что нового в RavenDB 3.0 [28]
Описание возможностей новой версии популярный базы данных RavenDB.
- Синхронизация MongoDB и Elasticsearch [29]
Небольшая статья про сервис Transporter, который позволяет оперативно синхронизовать MongoDB и ElasticSearch.
- Введение в HBase [30]
Статья, содержащая видео и поясняющий материал по теме HBase — хранилища данных из экосистемы Hadoop, а также рассказывающая о ситуациях, когда стоит применять данное решение и когда не стоит.
- Использование OCRFile в Cascading и Apache Crunch [31]
Пример использования OCRFile для Cascading и Apache Crunch, которое позволяет улучшить производительность их работы.
- Приглашаем на HadoopKitchen [32]
Объявление о встрече, посвященной Hadoop, которая состоится в офисе Mail.ru. Я тоже собираюсь посетить данное мероприятие.
- Как добиться успеха в Big Data [33]
Небольшая статья с инфографикой, которая расскажет об основных факторах, которые влияют на успешность компании в области Big Data.
- Vincent Granville о Big Data [34]
Vincent Granville — автор портала DataScienceCentral, приводит свои размышления и дает определение понятия Big Data.
- 5 ключевых идей для понимания Big Data [35]
Интересный пост от портала Smart Data Collective, который рассказывает 5 ключевых моментах, которые помогут извелкать пользу из данных наиболее эффективно.
Автор: moat
Источник [36]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/vy-sokaya-proizvoditel-nost/70086
Ссылки в тексте:
[1] выпуск: http://habrahabr.ru/post/237583/
[2] Использование Apache Samza в LinkedIn: http://engineering.linkedin.com/samza/real-time-insights-linkedins-performance-using-apache-samza
[3] Кто и как использует Hadoop: http://siliconangle.com/blog/2014/09/19/the-state-of-hadoop-2014-whos-using-it-and-why/
[4] Ближайшие встречи по Data Science в Москве: http://igorsubbotin.blogspot.ru/2014/09/upcoming-meetups-1.html
[5] Новый тип агрегации в Elasticsearch: http://www.elasticsearch.org/blog/top-hits-aggregation/
[6] Новая версия Apache Tez: http://hortonworks.com/blog/introducing-apache-tez-0-5/
[7] SQL-запросы к Hadoop с помощью Apache Drill: https://gigaom.com/2014/09/16/sql-on-hadoop-tech-apache-drill-is-ready-to-use-and-part-of-maprs-distro/
[8] Исследование влияния многопользовательской нагрузки на Cloudera Impala: http://blog.cloudera.com/blog/2014/09/how-impala-supports-mixed-workloads-in-multi-user-environments/
[9] 10 лучших презентаций с SlideShare по Data Science и Big Data: http://igorsubbotin.blogspot.ru/2014/09/top-10-presentations-about-data-science-big-data-on-slideshare.html
[10] Использование дискового пространства в MongoDB: http://engineering.objectrocket.com/2014/09/18/understanding-mongodb-space-usage/
[11] Слабая изолированность — серьезная проблема: http://www.bailis.org/blog/understanding-weak-isolation-is-a-serious-problem/
[12] 10 уроков от Microsoft Azure: http://www.troyhunt.com/2014/09/10-things-i-learned-about-rapidly.html
[13] Использование Redis в Twitter: http://igorsubbotin.blogspot.ru/2014/09/redis-twitter.html
[14] KDD 2104: Google KV и Topic Modeling: http://blog.urx.com/urx-blog/2014/9/10/kdd-retro-google-knowledge-vault-and-topic-modeling
[15] Почему в Loggly выбрали AWS Route 53, а не ELB: https://www.loggly.com/blog/why-aws-route-53-over-elastic-load-balancing/
[16] FireBox: строительный блок для Warehouse-Scale Computers в 2020 году: http://igorsubbotin.blogspot.ru/2014/09/firebox-warehouse-scale-computer-in-2020.html
[17] О кэшировании на @Scale: http://engineering.opendns.com/2014/09/16/caching-scale/
[18] Facebook полностью отключил один дата-центр для проверки отказоустойчивости: http://www.datacenterknowledge.com/archives/2014/09/15/facebook-turned-off-entire-data-center-to-test-resiliency/
[19] Анонс Apache Spark 1.1: http://databricks.com/blog/2014/09/11/announcing-spark-1-1.html
[20] Потоковая обработка данных в Apache Spark 1.1: http://databricks.com/blog/2014/09/16/spark-1-1-the-state-of-spark-streaming.html
[21] Статистические вычисления в Apache Spark 1.1: http://databricks.com/blog/2014/08/27/statistics-functionality-in-spark.html
[22] Метрики Elasticsearch: https://blog.compose.io/elasticsearch-metrics/?utm_source=feedly&utm_reader=feedly&utm_medium=rss&utm_campaign=elasticsearch-metrics
[23] Новости от Apache Software Foundation Blog: https://blogs.apache.org/foundation/entry/the_apache_news_round_up
[24] Еженедельный дайджест от Rackspace: http://www.rackspace.com/blog/rackspace-weekly-digest-september-19/
[25] 10 способов работы с Hadoop через SQL-запросы: http://bigdataanalyticsnews.com/10-ways-query-hadoop-sql/
[26] Обзор наиболее интересных материалов по Hadoop №87: http://www.hadoopweekly.com/Hadoop-Weekly-87.html
[27] 174 драйвера для MongoDB с открытым исходным кодом: http://www.findbestopensource.com/search/?query=mongo+db+driver
[28] Что нового в RavenDB 3.0: http://java.dzone.com/articles/what-new-ravendb-30-ravenfs
[29] Синхронизация MongoDB и Elasticsearch: https://blog.compose.io/continuously-synchronize-your-mongodb-data-to-elasticsearch/?utm_source=feedly&utm_reader=feedly&utm_medium=rss&utm_campaign=continuously-synchronize-your-mongodb-data-to-elasticsearch
[30] Введение в HBase: http://datasciencereport.com/2014/09/15/edu-video-introduction-to-hbase-and-when-to-use-it/#.VBgKKxZabFI
[31] Использование OCRFile в Cascading и Apache Crunch: http://hortonworks.com/blog/using-orcfile-cascading-apache-crunch/
[32] Приглашаем на HadoopKitchen: http://habrahabr.ru/company/mailru/blog/237131/
[33] Как добиться успеха в Big Data: http://www.bigdata-startups.com/BigData-startup/achieve-big-success-big-data/
[34] Vincent Granville о Big Data: http://www.datasciencecentral.com/profiles/blogs/defining-big-data
[35] 5 ключевых идей для понимания Big Data: http://smartdatacollective.com/rick-delgado/235426/5-keys-successfully-using-big-data
[36] Источник: http://habrahabr.ru/post/237581/
Нажмите здесь для печати.