Рубрика «sre» - 4

В курсах Слёрм Kubernetes постепенно остается один Kubernetes. Смежные темы постепенно переходят в отдельные курсы.

Первыми были Docker, Ansible, Ceph. Двухчасовые лекции по ним сначала превратались в цикл вебинаров, а потом — в онлайн-курсы.

Пришел черед мониторинга. Тема «Мониторинг кластера» превратилась в онлайн-курс Слёрм Пром, целиком посвященный Prometheus. Как мы любим, с практикой на учебном стенде. Онлайн-курс — это записанные лекции, практические задания, стенд для выполнения практики, помощь саппортов. Прохождение Слёрма Пром занимает 12-16 часов.

Содержание курса:

  1. Основы Prometheus
  2. Exposition (Node exporter, Blackbox exporter, Custom exporter, Application library)
  3. Prometheus (Service Discovery, Labels, PushGateway)
  4. PromQL (Хранение данных, типы данных, выражения, Record Rules)
  5. Alerting (Alertrules, Alertmanager)
  6. Визуализация данных (Grafana)
  7. Продвинутое использование Prometheus (High Availability, Federation, Remote read/write, Thanos, HTTP API)
  8. Prometheus в Kubernetes

Курс стоит 15 000 ₽ (10 000 ₽ для тех, кто был на Слёрмах).

Пример лекции.

Автор курса — Владимир Гурьянов, специалист по мониторингу и спикер Слёрма. Я взял у него интервью про курс, жизнь и работу в нашей компании. Мне интересны люди, которые направляют свой корабль в моря, обозначенные на картах «Здесь живут драконы».

Слёрм Пром: первый курс по Prometheus на русском языке и его автор Владимир Гурьянов - 1

Читать полностью »

Иван Круглов, Principal Developer в Booking.com, выступал на Слёрм DevOps c темой SRE, а после выступления согласился за чашкой кофе поговорить о Kubernetes, Service Mesh, open source и «нестандартных» решениях в Booking.com

Так как тема SRE оказалась намного обширнее, то Иван и его коллега Бен Тайлер, Principal Developer в Booking.com, согласились стать спикерами Слёрм SRE, который пройдёт 3—5 февраля 2020. Там будут рассмотрена теория и практика применения SLI/SLO/error budget, проведение разбора полетов (post-mortem), эффективная ликвидации IT-инцидентов, построение надежных систем (мониторинг и алертинг, graceful degradation, failure-injection, capacity planning, предотвращение cascading failures).

А сейчас слово Ивану.

Интервью с Иваном Кругловым, Principal Developer: Service Mesh и «нестандартные» инструменты Booking.com - 1

Читать полностью »

Анонсируем первый в России практический курс по SRE: Слёрм SRE.

На интенсиве мы будем три дня строить, ломать, чинить и улучшать сайт-агрегатор по продаже билетов в кино.

«Надежда — плохая стратегия». Интенсив по SRE в Москве, 3-5 февраля - 1

Мы выбрали агрегатор билетов, потому что у него множество сценариев отказа: наплыв посетителей и DDoS-атаки, падение одного из множества критичных микросервисов (авторизация, резервирование, обработка платежей), недоступность одного из множества кинотеатров (обмен данными о свободных местах и резервировании), и далее по списку.

Мы сформируем концепцию Reliability нашего сайта-агрегатора, которую будем в дальшейшем Engineering, разберем проектирование с точки зрения SRE, подберем метрики, настроим их мониторинг, будем устранять возникающие инциденты, проведем тренинг командной работы с инцидентами в условиях, приближенных к боевым, организуем разбор полетов.

Ведут программу сотрудники Booking.com и Google.
В этот раз удаленного участия не будет: курс построен на личном взаимодействии и на командной работе.

Подробности под катом

Читать полностью »

6 практических историй из наших SRE-будней - 1

Современная веб-инфраструктура состоит из множества компонентов разного назначения, имеющих очевидные и не очень взаимосвязи. Это становится особенно хорошо видно при эксплуатации приложений, использующих разные программные стеки, что с приходом микросервисов стало встречаться буквально на каждом шагу. Ко всеобщему «веселью» добавляются и внешние факторы (сторонние API, сервисы и т.п.), что усложняют и без того непростую картину.

В общем, даже если эти приложения и будут объединены общими архитектурными идеями и решениями, для устранения необычных проблем в них зачастую приходится пробираться через очередные незнакомые дебри. Случатся ли такие проблемы — лишь вопрос времени. Вот таким примерам из нашей последней практики и посвящена эта статья. В ролях: Golang, Sentry, RabbitMQ, nginx, PostgreSQL и другие.Читать полностью »

Привет! Раньше я жаловался на жизнь в парадигме Infrastructure as code и ничего не предлагал для решения сложившейся ситуации. Сегодня я вернулся, чтобы рассказать, какие подходы и практики помогут вырваться из бездны отчаяния и вырулить ситуацию в правильное русло.

Infrastructure as Code: как побороть проблемы с помощью XP - 1
Читать полностью »

Прим. перев.: То, что сегодня принято называть SRE (Site Reliability Engineering — «обеспечение надежности информационных систем»), включает в себя большой спектр мероприятий по эксплуатации программных продуктов, направленных на достижение ими необходимого уровня надежности. Мониторинг — одно из ключевых мероприятий, а «золотые сигналы» образуют главные метрики, которые должны в нём учитываться. Не найдя на Хабре ни одного материала про них, мы решили перевести небольшую заметку от авторов платформы для управления инцидентами (VictorOps), дающую представление общее представление об этом подходе.

Для чего нужны «золотые сигналы» мониторинга и SRE? - 1

Эффективный site reliability engineering (SRE) опирается на глубокое понимание базовой инфраструктуры сервиса и архитектуры. Повышение прозрачности состояния приложения и инфраструктуры — это только начало проактивной работы над созданием надежных систем. При этом наилучшей отправной точкой для мониторинга состояния систем считаются так называемые «четыре золотых сигнала» (four golden signals) SRE. Наладив эти четыре базовых метода мониторинга, можно переходить к дальнейшему повышению прозрачности системы.Читать полностью »

Представляю вашему вниманию путеводитель по DevOpsConf — конференции, которая в этом году имеет галактический масштаб. В том смысле, что нам удалось собрать такую мощную и сбалансированную программу, что путешествие по ней понравится самым разным специалистам: разработчикам, системным администраторам, инженерам инфраструктуры, QA, тимлидам, СТО и вообще всем, кто вовлечен в технологический процесс разработки.

Мы предлагаем посетить два больших района DevOps-вселенной: в одном бизнес-процессы, гибко изменяемые через код, а в другом — инструменты. То есть на нашей конференции будет два равных по силе содержания и, что примечательно, по числу докладов потока. Один посвящен непосредственно использованию инструментов, а второй — процессам на примерах бизнес-задач, которые рассматриваются как код и управляются как код. Мы считаем, что технологии и процессы неразрывно связаны и планомерно показываем это с помощью наших спикеров, которые работают в компаниях новой волны и делятся своим путем к новому восприятию разработки через решение проблем и преодоление вызовов.

Путеводитель по галактике DevOpsConf 2019 - 1

Если хотите, то короткая выжимка нашего гида по DevOpsConf:

  • 30 сентября, в первый день конференции в первом зале рассмотрим 8 бизнес-кейсов.
  • Во втором зале в первый день разберем более узкоспециализированные инструментальные решения. В каждом докладе там много классного практического опыта, который однако подходит не всем компаниям.
  • 1 октября в первом зале наоборот говорим больше о технологиях, но уже более широко.
  • Во втором зале в второй день обсуждаем специфические задачи, возникающие не во всех проектах, например, в энтерпрайзе.

Читать полностью »

У нас в компании идёт процесс онбординга SRE-команды. Я зашёл во всю эту историю со стороны разработки. В процессе у меня появились мысли и инсайты, которыми я хочу поделиться с другими разработчиками. В этой статье-размышлении я говорю о том, что происходит, как происходит, и как всем дальше с этим жить.

Infrastructure as code: первое знакомство - 1

Читать полностью »

Системные администраторы всего мира, поздравляем вас с профессиональным праздником!

У нас системных администраторов не осталось (ну почти). Однако предание о них еще свежо. В честь праздника мы подготовили этот эпос. Устраивайтесь поудобней, дорогие читатели.

Эпос о системных администраторах как вымирающем виде - 1
Читать полностью »

В этот день мы сняли для вас тёплое ламповое видео, в котором наши сисадмины рассказали о своей работе: про то, что им интересно, что вдохновляет, какие у нас есть талисманы. Мы такие же люди как и все, конечно же, мы живем не только работой, у нас остается свободное время на различные хобби, про это мы тоже рассказали и показали.

А под катом вы найдете небольшой рассказ о нашей работе и о том, чем занимаемся.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js