- PVSM.RU - https://www.pvsm.ru -
Хранение и обработка данных – задача, которую человечество с переменным успехом решает ни одну тысячу лет. Проблемы, связанные с решением этой задачи, связаны не только с физическим объемом данных (volume), но и со скоростью изменчивости этих данных (velocity) и многообразием (variety) источников данных – то, что аналитики Gartner в своих статьях [11, 12] обозначили как «3V».
Computer Science не так давно столкнулась с проблемой Больших Данных, решения которой от ИТ ждут частные компании, правительства, научное сообщество.
И в мире уже появилась компания, которая, с переменным успехом, справляется с проблемой Big Data вот уже 10 лет. По моему ощущению (т.к. чтобы заявить достоверно нужны открытые данные, которых в свободном доступе нет) ни одна коммерческая или некоммерческая организация не оперирует большим объемом данных, чем компания, о которой идет речь.
Именно эта компания являлась основным контрибьютором идей платформы Hadoop, а также многих компонентов экосистемы Hadoop, таких как HBase, Apache Giraph, Apache Drill.
Как Вы догадались, речь идет о Google.
Условно историю развития «Big Data»-решений в Google можно поделить на 2 периода:
В этот период инженерами Google были описаны и опубликованы в свободном доступе research papers о 3-ех системах, которые в Google используют для решения своих задач:
Влияние работ, опубликованных Google, на первые шаги становления отрасли Big Data сложно переоценить.
Наиболее известным примером реализации концепций, описанных Google, является платформа Hadoop. Так прототипом файловой системы HDFS является GFS; идеи, положенные в основу архитектуры HBase, взяты из BigTable; а фреймворк вычислений Hadoop MapReduce [4] (без YARN [5]) является реализацией принципов, заложенных в аналогичном фреймворке Google MapReduce.
Сама платформа Hadoop, начиная с 2008 года, в течение нескольких лет будет набирать популярность и к 2010-2011 году де-факто станет стандартом для работы с Большими Данными.
Сейчас Hadoop уже «локомотив» в мире Big Data и оказывает огромное влияние на этот сегмент ИТ. Но когда-то такое же огромное влияние на Hadoop оказали описанные в Google архитектурные подходы к построению «Big Data»-платформы.
Сама же платформа Google все это время развивалась, адаптировалась под все новые и новые требования, у поисковика появлялись новые сервисы, в том числе те, чья природа соответствовала скорее интерактивному режиму обработки, чем пакетному; размеры chunk’ов (кластеров в GFS) подходили для эффективного хранения не всех типов данных; появлялись требования, связанные с геораспределеностью и поддержкой распределенных транзакций.
К 2009-2010 годам как в самой компании Google, так и в академической среде достаточно подробно исследовали достоинства и ограничения комплекса подходов для построения Big Data платформы, описанного инженерами Google в период с 2003 по 2008 год. Да и сама платформа Google за период до 2009 года развивалась и эволюционировала.
Итак, в (условно) 2-ой этап развития Big Data платформы в Google – 2009-2013 – исследователями компании с разной степенью детализации были описаны следующие программные системы:
В последующих статьях цикла, посвященного платформе Google, будут рассмотрены большинство из вышеперечисленных внутренних программных продуктов Google, с помощью которых Google успешно решает задачи хранения, структурирования и поиска по данным, детектирования спама, повышения эффективности показов рекламных объявлений в сервисах контекстной рекламы, поддержания консистентности данных в социальной сети Google+, etc.
Вместо заключения приведу цитату человека, который уже доказал свою способность успешно предсказывать будущего отрасли Big Data, CEO Cloudera Майка Олсона:
If you want to know what the large-scale, high-performance data processing
infrastructure future looks like, my advice would be to read the Google research papers that are coming out right now.
— Mike Olson, Cloudera CEO
Автор: codezombie
Источник [10]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/google/51366
Ссылки в тексте:
[1] Google File System: https://www.pvsm.ru/post/73673/
[2] Bigtable: http://0xcode.in/bigtable
[3] MapReduce: http://0xcode.in/google-mapreduce
[4] Hadoop MapReduce: http://www.codeinstinct.pro/2012/08/mapreduce-design.html
[5] YARN: https://www.pvsm.ru/post/161437/
[6] Our new search index: Caffeine.: http://googleblog.blogspot.it/2010/06/our-new-search-index-caffeine.html
[7] Закон перехода количественных изменений в качественные.: http://ru.wikipedia.org/wiki/%D0%97%D0%B0%D0%BA%D0%BE%D0%BD_%D0%BF%D0%B5%D1%80%D0%B5%D1%85%D0%BE%D0%B4%D0%B0_%D0%BA%D0%BE%D0%BB%D0%B8%D1%87%D0%B5%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D1%8B%D1%85_%D0%B8%D0%B7%D0%BC%D0%B5%D0%BD%D0%B5%D0%BD%D0%B8%D0%B9_%D0%B2_%D0%BA%D0%B0%D1%87%D0%B5%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D1%8B%D0%B5
[8] Google BigQuery.: https://developers.google.com/bigquery/
[9] 0xСode.in: http://0xcode.in/
[10] Источник: http://habrahabr.ru/post/206972/
Нажмите здесь для печати.