- PVSM.RU - https://www.pvsm.ru -
В отзывах о Слёрме Kubernetes звучала фраза: «Kubernetes оказался проще, чем я думал». Сейчас уже не звучит, мифа о сложности k8s больше нет. Он перешел в разряд инструментов easy to learn, hard to master.
Мы хотим повторить то же самое с SRE. Показать, что SRE проще и понятнее, чем кажется. Сдвинуть парадигму: дать людям посмотреть на проект глазами инженера SRE.
Как всегда на старте, в уравнении много неизвестных. И как всегда на старте, самое интересное достанется первым.
3-5 февраля мы проводим в Москве Слёрм SRE. Билет на трехдневный интенсив стоит 60 тысяч. Что же участник получит за свои деньги?
Когда я рассказываю друзьям и коллегам про SRE, я встречаю здоровый скептицизм:
Эти вопросы я хочу разобрать.
На уровне лозунгов: SRE — это одна из имплементаций DevOps. Она появилась 10+ лет назад в Google, но только недавно стала проникать на «обычный» рынок, в первую очередь благодаря книге Site Reliability Engeneering, выпущенной Google в 2016 году.
О связи SRE и DevOps хорошо рассказано в этом видео:
Плохо то, что лозунги — ни о чём. Ну DevOps, ну имплементация, очередное «за всё хорошее против всего плохого».
Можно прочитать книгу (и стоит это сделать). Но читатель окажется в положении человека, изучающего каратэ по рисункам. Книга описывает концепцию без приложения к реальности. Преподаватель ведет за руку по конкретному пути и в процессе указывает на ошибки.
В цену входит быстрый и глубокий обзор подхода и инструментов SRE.
На Слёрме мы будем щупать SRE руками: выберем метрики, настроим их измерение, алерты, столкнемся с инцидентами, решим и разберем их, перестроим проект по всем канонам SRE.
То есть дадим пошаговую инструкцию, которую можно внедрить у себя по возвращении с интенсива.
Вру. По сути мы дадим не инструкцию, а образец, с которого можно срисовать кучу идей и решений.
В цену входит образец для внедрения.
Главная проблема в том, что вам предстоит убеждать тех, кто не был на Слёрме. Поэтому в идеале стоит прийти на интенсив всей командой. Поэтому мы даем большие скидки для групп.
Хорошо бы на Слёрм прийти во главе с СТО. И СЕО тоже полезно, и об этом раздел…
Обычно между СЕО (топ-менеджментом), СТО (IT-менеджментом), разработчиками и эксплуатацией есть конфликт задач.
Я намеренно не говорю «конфликт интересов», это именно конфликт задач.
СЕО нужны финансовые показатели. СТО — понятная, управляемая и по возможности комфортная ситуация. То есть понятные таски с понятным бизнес-велью, соблюдение сроков, нормальный стек, больше фич и меньше факапов. Разработчикам нужно выкатывать больше фич, а эксплуатации — обеспечить доступность (что явно конфликтует с «больше фич»).
SRE говорит, что у всех участников процесса есть единая задача: счастье пользователя. Пользователя делает счастливым здоровый баланс между новыми фичами и надежностью сервиса. Счастливый пользователь платит больше денег. Для управления счастьем пользователя нужен специализированный инструментарий.
Более того, SRE, будучи основан на метриках, позволяет переводить финансовые показатели в целевые показатели различных метрик, а их в свою очередь — в задачи DevOps-команд.
Позволяет переводить — это я преувеличил. Наличие этих метрик позволяет найти взаимосвязи между состоянием метрик и финансовыми показателями. Это отдельная большая, но понятная задача.
Есть проект DORA, DevOps Research & Assessments [1], он выпускает ежегодные исследования по ценности для бизнеса и ROI DevOps и его подкласса SRE. Мы сейчас переводим актуальный отчет на русский язык. Там есть оценочные формулы, которые с известной степенью точности можно применить к вашей компании.
Резюме: SRE дает бизнесу возможность управлять финансовыми показателями, устанавливая целевые показатели метрик, а DevOps-команда, глядя на текущие значения метрик, однозначно понимает, чем сейчас нужно заниматься с максимальной пользой для финансовых показателей. Какой СЕО откажется от такого инструмента?
Получить ресурсы на внедрение SRE вполне реально.
В цену курса входит набор доводов в пользу перехода на SRE и DevOps.
SRE делится на инструменты, культуру и организационную структуру.
Часть инструментов, например, Service Mesh, нужны для больших и сложных проектов. Но те же retry, backoff, failure injection, graceful degradation можно внедрять и в малых проектах, и дают они громадную отдачу.
Культура тоже полезна в любой компании. Классический администратор, настраивая Prometheus, будет действовать по стандарту: включит мониторинг потребления памяти и диска, и другие привычные мониторинги. SRE-инженер сперва пойдет обсуждать с бизнесом ключевые показатели бизнес-процессов, а затем настроит их мониторинг. Сразу видно, что культура SRE-инжиниринга полезна даже в микро-стартапе.
А вот организационная структура в маленьких компаниях, наверно, не нужна и даже вредна. Когда все сотрудники — универсалы, не надо принудительно выделять SRE-команды.
Курс создан теми, кто давно внедрил SRE у себя в командах и давно живет в этой парадигме. Иван Круглов и Бен Тайлер, оба — Principal Developer в Booking.com. Евгений Варавва, разработчик широкого профиля в Google. Эдуард Медведев, CTO в Tungsten Labs, выросший из SRE-инженера.
Эдуард проводит вебинар «SRE — хайп или будущее?» [2] 12 декабря в 11:00.
Что касается программы. Я уже получаю фидбек экспертов, что программа «не бьётся»: она слишком широкая и местами нелогичная. Это действительно так.
По сути у нас есть каркас программы, набор идей, которые мы хотим раскрыть. У нас впереди два месяца напряженной работы, по мере подготовки программа будет уточняться: уберем лишнее, уточним оставшееся.
Но уже в текущем виде программа ясно показывает направление, в котором мы работаем.
Тема №1: Основные принципы и методы SRE
Тема №2: Дизайн распределенных систем
Тема №3: Как принимают проект SRE
Тема №4: Проектирование и запуск распределенной системы
Тема №5: Monitoring, Observability and Alerting
Тема №6: Практика тестирования надежности систем
Тема №7: Практика incident response
Тема №8: Практика управления нагрузкой
Тема №9: Реагирование на инциденты
Тема №10: Диагностика и решение проблем
Тема №11: Тестирование надежности систем
Тема №12: Самостоятельная работа и ревью
Стоит ли все вышеперечисленное своих денег?
Вся практика выполняется в Kubernetes. Тем, кто владеет Kubernetes, прямая дорога в SRE-инженеры. Тем, кто не владеет — на наши курсы по Kubernetes [3].
Автор: Антон Скобин
Источник [5]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/obuchenie/339400
Ссылки в тексте:
[1] DevOps Research & Assessments: https://cloud.google.com/devops/
[2] вебинар «SRE — хайп или будущее?»: https://slurm.io/webinar-sre?utm_source=habr&utm_medium=post2&utm_campaign=sre
[3] курсы по Kubernetes: https://slurm.io/online?utm_source=habr&utm_medium=post2&utm_campaign=sre
[4] Регистрация на Слёрм SRE: https://slurm.io/sre?utm_source=habr&utm_medium=post2&utm_campaign=sre
[5] Источник: https://habr.com/ru/post/479378/?utm_source=habrahabr&utm_medium=rss&utm_campaign=479378
Нажмите здесь для печати.