Google и DevOps: две книги про SRE

Первые десять лет в Гугле я работал обычным инженером: запускал на картах общественный транспорт, улучшал поиск и отлавливал спам в ютьюбе. В какой-то момент обнаружилось, что по соседству с командами SWE (Software Engineers) существуют какие-то загадочные SRE (Site Reliability Engineers), которые живут в продакшене и всё знают про инфраструктуру, конфиги и мониторинг. Обычно они приходили к нам с непонятными графиками и настойчиво рекомендовали что-нибудь переписать в нашем сервисе, чтобы он взрывался аккуратно и по кусочкам, а не целиком и вместе со всеми соседями. Или строили какой-нибудь кусок инфраструктуры, волшебным образом решающий все наши проблемы раз и навсегда. Или сообщали, что второго релиза на этой неделе не будет, потому что один датацентр смыло ураганом, а рядом с другим хоронили лошадь и перерубили магистральный кабель. Через некоторое время стало понятно, что к этим людям можно приходить с самыми разнообразными проблемами, и уходить с решениями, найденными парой уровней абстракции ниже, чем ты ожидаешь от своего собственного продукта («вы, конечно, заплатили за нужный объем трафика, но вот здесь он у вас тупо не влезает в свитч, стоящий наверху стойки»).

В итоге мне стало интересно, как выглядит всё это SRE изнутри, и я подался в Mission Control ^[1] – программу ротации, позволяющую провести полгода в роли SRE, получить ценного production-опыта и, при желании, вернуться в свою прежнюю команду делиться приобретёнными знаниями. Я вместо этого остался, как и две трети моих нынешних коллег по Video Processing SRE, тоже переквалифицировавшихся из обычных инженеров. Теперь я сам пугаю SWE непонятными графиками и эвакуирую ютьюбные видео из горящих датацентров, с перерывами на мирный созидательный кодинг. Оказалось, что за пятнадцать лет внутри Гугла выросла здоровая и эффективная SRE-организация со своими практиками, принципами и методами – но о них никто не знает, потому что из тех кто попадал туда, еще никто не возвращался назад.

Решением этой проблемы исчезновения информации о дежурствах, SLO и постмортемах в чёрной дыре Google SRE стала книжка «Site Reliability Engineering» ^[2], подробно описывающая как это наше SRE на самом деле работает. Собственно, весь этот пост затеян ради двух новостей:

1) Две недели назад вышел русский перевод ^[3] вышеупомянутой SRE book. Если вам интересно, как завести в вашей компании здоровые DevOps ^[4]-практики, эта книга для вас. Если вы подозреваете в себе SRE-наклонности, то эта книга ещё более для вас.

2) Вдогонку к первой книге только что вышла (пока только на английском) Site Reliability Workbook ^[2] с практическими примерами из жизни Google Cloud Platform – тоже всячески рекомендую.

Автор: Aldanur

Источник ^[5]

Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/blog-kompanii-google/290737

Ссылки в тексте:

[1] Mission Control: https://cloudplatform.googleblog.com/2016/07/adventures-in-SRE-land-welcome-to-Google-Mission-Control.html

[2] книжка «Site Reliability Engineering»: https://landing.google.com/sre/book.html

[3] вышел русский перевод: https://habr.com/company/piter/blog/420139/

[4] DevOps: https://www.youtube.com/watch?v=12LLJFSBnS4

[5] Источник: https://habr.com/post/421603/?utm_campaign=421603

Нажмите здесь для печати.