Рубрика «sre» - 3

Можно ли описать Goggle в нескольких словах? Компанию, в которой сотни подразделений, порой настолько экспериментальных, что вплотную приближаются к научной фантастике. Компанию, в которой работают сотни тысяч человек по всему миру.

Наверное, Google — для каждого своей. Для каждого наблюдателя — сотрудника, независимого разработчика и админа, конкурента, просто человека интересующегося IT-тематикой, пользователя в сети, вбивающего в адресную строку браузера google.com.

Я познакомился c Евгением Вараввой, разработчиком широкого профиля в Google (Сан-Франциско), на Слёрме SRE — он там вовсю с удовольствием запутывал участников задачками, неожиданными багами и проблемами учебного проекта.

А после, когда начали расставлять столы, усталые участники прощаться друг с другом, сотрудники Слёрма убирали провода, роутеры и сетевые удлинители, я пригласил Евгения поговорить — каким он видит Google. Изнутри. И изменилась ли его ощущение и точка зрения за десяток лет работы в компании.

Что получилось — читайте…

Евгений Варавва, разработчик в Google. Как описать Google в 5 словах - 1

Читать полностью »

Наша команда любит эксперименты. Каждый Слёрм — это не статичное повторение предыдущих, а осмысление опыта и переход от хорошего к лучшему. Но со Слёрмом SRE мы решили применить абсолютно новый формат — дать участникам условия, максимально приближённые к «боевым».

Если кратко обрисовать, чем мы занимались на интенсиве: «Строим, ломаем, чиним,
изучаем». SRE мало чего стоит в голой теории — только практика, реальные решения, реальные проблемы.

Участники были поделены на команды, чтобы бодрый соревновательный дух не дал никому заснуть или запустить «Angry Birds» на iPhone по примеру Дмитрия Анатольевича.

Проблемы, глюки, баги и задачи обеспечивали участникам четыре ментора. Иван Круглов, Principal Developer в Booking.com (Нидерланды). Бен Тайлер, Principal Developer в Booking.com (США). Эдуард Медведев, CTO в Tungsten Labs (Германия). Евгений Варавва, разработчик широкого профиля в Google (Сан-Франциско).

Да ещё и участники поделены на команды — и соревнуются друг с другом. Интересно?

Слёрм SRE. Сплошной эксперимент c экспертами из Booking.com и Google.com - 1
Иван, Бен, Эдуард и Евгений с добрым ленинским прищуром смотрят на бедных участников Слёрм SRE перед началом соревнования.

Читать полностью »

По мотивам дискуссии в чате AWS Minsk Community

В последнее время разгораются настоящие битвы на предмет определения понятия DevOps и SRE.
Несмотря на то, что уже во многом дискуссии на эту тему уже набили оскомину, в том числе и мне, решил вынести на суд хабра-сообщества и свой взгляд на эту тему. Тем, кому интересно, добро пожаловать под кат. И да начнется все по новой!
Читать полностью »

Слёрм SRE — учимся обеспечивать счастье пользователей - 1

3 февраля в Москве стартует Слёрм SRE.

Это первый интенсив, где мы ушли от схемы «Повторяй за преподавателем». Вас ждет работа в SRE-проекте, максимально приближенная к боевым условиям.

Вы получите в руки полновесный работающий проект и будете работать с ним в реальном времени. Вас ждет типичная задача SRE: работа с незнакомым кодом, проблемы синхронизации распределенных систем, сложности коммуникации с коллегами.

Вас ждут нетривиальные отказы систем, взятые из реальной жизни. (Я время от времени слышу от спикеров: «Коллеги, извините, в ближайшие два дня не смогу подключиться к встречам, зато появился отличный кейс для нашей программы»).

Читать полностью »

image

SRE (Site Reliability Engineering) — подход к обеспечению доступности веб-проектов. Считается фреймворком для DevOps и говорит как добиться успеха в применение DevOps-практик. В этой статье перевод Главы 4 Service Level Objectives книги Site Reliability Engineering от Google. Этот перевод я готовил самостоятельно и полагался на собственный опыт понимания процессов мониторинга. В телеграм-канале monitorim_it и прошлом посте на Хабре я публиковал также перевод 6 главы этой же книги о целях уровня обслуживания.

Перевод по катом. Приятного чтения!
Читать полностью »

Мониторинг распределённых систем — опыт Google (перевод главы книги Google SRE) - 1

SRE (Site Reliability Engineering) — подход к обеспечению доступности веб-проектов. Считается фреймворком для DevOps и говорит как добиться успеха в применение DevOps-практик. В этой статье перевод Главы 6 Monitoring Distributed Systems книги Site Reliability Engineering от Google. Этот перевод я готовил самостоятельно и полагался на собственный опыт понимания процессов мониторинга. В телеграм-канале @monitorim_it и блоге на Медиуме я публиковал также ссылку на перевод 4 главы этой же книги о целях уровня обслуживания.

Перевод по катом. Приятного чтения!
Читать полностью »

Как оценить ёмкость сервиса и не упасть под нагрузкой - 1

Рано или поздно любому растущему сервису приходится оценивать свои технические возможности. Сколько посетителей мы в силах обслужить? Какова ёмкость (она же capacity) системы? Не добрались ли мы до предела и не упадём ли, если привлечём ещё несколько тысяч пользователей? Сколько дополнительных вычислительных ресурсов заложить в бюджет на следующий год, чтобы соответствовать планам роста?

Ответы можно получить аналитическим путём, адресовав вопросы опытному разработчику/DevOps/SRE/админу. Достоверность оценки зависит от огромного числа факторов: начиная с темпов наполнения системы функциональностью и графа взаимосвязей между компонентами и заканчивая временем, которое эксперт с утра провёл в пробке. Чем сложнее система — тем больше сомнений в адекватности аналитической оценки.

Меня зовут Максим Куприянов, вот уже пять лет я работаю в Яндекс.Маркете. Сегодня я расскажу читателям Хабра, как мы учились оценивать ёмкость наших сервисов и что из этого вышло.
Читать полностью »

У вебинара плохой звук, поэтому мы сделали расшифровку.

Меня зовут Медведев Эдуард. Я сегодня поговорю о том, что такое SRE, как появилось SRE, какие есть критерии работы у SRE-инженеров, немножко о критериях надежности, немножко о ее мониторинге. Мы пройдемся по верхам, потому что за час много не расскажешь, но я дам материалы для дополнительного ознакомления, и мы все ждем вас на Слёрме SRE. в Москве в конце января.

Читать полностью »

В отзывах о Слёрме Kubernetes звучала фраза: «Kubernetes оказался проще, чем я думал». Сейчас уже не звучит, мифа о сложности k8s больше нет. Он перешел в разряд инструментов easy to learn, hard to master.

Мы хотим повторить то же самое с SRE. Показать, что SRE проще и понятнее, чем кажется. Сдвинуть парадигму: дать людям посмотреть на проект глазами инженера SRE.

Как всегда на старте, в уравнении много неизвестных. И как всегда на старте, самое интересное достанется первым.

Think SRE: смотрим на проекты глазами SRE-инженера - 1

3-5 февраля мы проводим в Москве Слёрм SRE. Билет на трехдневный интенсив стоит 60 тысяч. Что же участник получит за свои деньги?

Когда я рассказываю друзьям и коллегам про SRE, я встречаю здоровый скептицизм:

  • Впервые слышу про SRE, это какая-то алхимия.
  • Внедрить SRE сложно, это для гигантов вроде Гугла.
  • Это дорого и долго, не дадут времени, не выделят бюджет.
  • То, что вы описываете, слишком хорошо, чтобы быть правдой.

Эти вопросы я хочу разобрать.

Читать полностью »

SRE — хайповая тема. Появились вакансии SRE-инженера, об SRE заговорили на конференциях и в интервью. Вчера я увидел слово SRE в рассылке. Скоро оно зазвучит из каждого утюга.

Такой хайп у одних формирует лишние ожидания, а у других — ненужные опасения. SRE — это реализация идей DevOps, которая стирает грань между разработкой и эксплуатацией, и заполняет метриками пропасть между IT и бизнесом. Где-то нет ни этой грани, ни этой пропасти. А где-то именно SRE-практик не хватает для DevOps-трансформации.

12 декабря в 11:00 (Мск) на вебинаре «SRE — хайп или будущее?»Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js