Рубрика «sre» - 3

Post Mortem по недоступности Quay.io

2020-08-21 в 7:20, admin, рубрики: devops, Quay, red hat, sre, troubleshooting, Блог компании Флант, Серверное администрирование, системное администрирование

Прим. перев.: в начале августа Red Hat публично рассказала о решении проблем доступности, что возникали в предыдущие месяцы у пользователей её сервиса Quay.io (в его основе — реестр для образов контейнеров, доставшийся компании вместе с покупкой CoreOS). Вне зависимости от вашей заинтересованности в этом сервисе как таковом, поучителен сам путь, по которому прошли SRE-инженеры компании для диагностики и устранения причин аварии.

Post Mortem по недоступности Quay.io - 1

19 мая, ранним утром (по летнему североамериканскому восточному времени, EDT), сервис quay.io упал. Авария затронула как потребителей quay.io, так и Open Source-проекты, использующие quay.io в качестве платформы для сборки и распространения ПО. Red Hat дорожит доверием как одних, так и других.

Команда SRE-инженеров сразу подключилась к работе и постаралась как можно скорее стабилизировать работу сервиса Quay. Однако пока они этим занимались, клиенты лишились возможности push’ить новые образы, и лишь периодически им удавалось pull’ить имеющиеся. По неведомой причине база данных quay.io блокировалась после масштабирования сервиса на полную мощность.Читать полностью »

Kubernetes в ДомКлик: как спать спокойно, управляя кластером на 1000 микросервисов

2020-08-07 в 8:35, admin, рубрики: devops, domclick, kubernetes, ops, sre, Блог компании ДомКлик

Меня зовут Виктор Ягофаров, и я занимаюсь развитием Kubernetes-платформы в компании ДомКлик в должности технического руководителя разработки в команде Ops (эксплуатация). Я хотел бы рассказать об устройстве наших процессов Dev <-> Ops, об особенностях эксплуатации одного из самых больших k8s-кластеров в России, а также о DevOps/SRE-практиках, которые применяет наша команда.

Kubernetes в ДомКлик: как спать спокойно, управляя кластером на 1000 микросервисов - 1
Читать полностью »

Путь разработчика в SRE: зачем идти в инфраструктуру и что из этого выйдет

2020-06-30 в 15:38, admin, рубрики: Ansible, azure, devops, Dodo IS, dodo pizza engineerng, extreme programming, iac, infrastructure as code, jsonnet, onboarding, Packer, sre, terraform, xp, Блог компании Dodo Pizza Engineering, Блог компании Конференции Олега Бунина (Онтико), инфрастуктура, Программирование

Около года назад я переквалифицировался из .NET-разработчика в SRE. В этой статье делюсь историей о том, как группа опытных разработчиков отложила в сторону C# и пошла изучать Linux, Terraform, Packer, рисовать NALSD и строить IaC, как мы применяли практики экстремального программирования для управления инфраструктурой компании, и что из этого вышло.

Путь разработчика в SRE: зачем идти в инфраструктуру и что из этого выйдет - 1

Читать полностью »

Как мы эвакуировали дежурную смену Яндекса

2020-04-22 в 8:00, admin, рубрики: sre, Блог компании Яндекс, дежурная смена, инженерные системы, Компьютерное железо, самоизоляция, системное администрирование, яндекс

Как мы эвакуировали дежурную смену Яндекса - 1

Когда работа умещается в одном ноутбуке и может выполняться автономно от других людей, то нет проблем перебраться на удалёнку — достаточно остаться утром дома. Но так повезло не всем.

Дежурная смена — это команда специалистов по доступности сервисов (SRE). Она включает в себя дежурных администраторов, разработчиков, менеджеров, а также общую «приборную панель» из 26 ЖК-панелей по 55 дюймов каждая. От работы дежурной смены зависит стабильность сервисов компании и скорость решения проблем.

Сегодня Дмитрий Меликов tal10n, руководитель дежурной смены, расскажет о том, как за считанные дни им удалось перевезти оборудование на дом и наладить новые процессы работы. Передаю ему слово.

Читать полностью »

Эксплуатация большой распределённой системы: чему я научился

2020-04-02 в 6:48, admin, рубрики: Infrastructure, monitoring, observability, sre, Блог компании Юла, Серверное администрирование, системное администрирование

Эксплуатация большой распределённой системы: чему я научился - 1

Читая различные каналы и рассылки, я часто встречаю статьи о конкретных «болях» и проблемах, возникающих при росте компании, когда надежность и масштабируемость выходят на первый план. Эта статья — иная. Здесь нет подробного разбора конкретных архитектурных решений или пошагового руководства по изменению инженерной культуры. Скорее, это взгляд сверху на те вызовы, которые возникают при эксплуатации распределенных систем, и отправная точка, которая поможет сориентироваться в потоке терминов, аббревиатур и технологий.

Предлагаю вашему вниманию перевод статьи, написанной инженером из Uber.

* * *

В последние несколько лет я создавал и обслуживал большую распределённую систему платежей в Uber. За это время я многое узнал о концепциях распределённых архитектур и на своём опыте выяснил, насколько трудно создавать и обслуживать высоконагруженные системы с высокой доступностью. Построение такой системы — работа интересная. Мне нравится планировать, как система будет обрабатывать рост трафика в 10-100 раз, обеспечивать надёжность данных вне зависимости от аппаратных сбоев. Однако эксплуатация большой распределённой системы дала мне неожиданный опыт.
Читать полностью »

Взгляд изнутри на надежность сервисов Facebook

2020-02-25 в 7:15, admin, рубрики: devops, Facebook, observability, sre, Блог компании Конференции Олега Бунина (Онтико), высокая производительность, дашборд, Разработка веб-сайтов, Серверная оптимизация

Когда Facebook «лежит», люди думают, что это из-за хакеров или DDoS-атак, но это не так. Все «падения» за последние несколько лет были вызваны внутренними изменениями или поломками. Чтобы учить новых сотрудников не ломать Facebook на примерах, всем большим инцидентам дают имена, например, «Call the Cops» или «CAPSLOCK». Первый так назвали из-за того, что когда однажды соцсеть упала, в полицию Лос-Анджелеса звонили пользователи и просили его починить, а шериф в отчаянии в Твиттере просил не беспокоить их по этому поводу. Во время второго инцидента на кэш-машинах опустился и не поднялся сетевой интерфейс, и все машины перезапускали руками.

Элина Лобанова работает в Facebook последние 4 года в команде Web Foundation. Участники команды зовутся продакшн-инженерами и следят за надежностью и производительностью всего бэкенда, тушат Facebook, когда он горит, пишут мониторинг и автоматизацию, чтобы облегчить жизнь себе и другим.

В статье, основанной на докладе Элины на HighLoad++ 2019, расскажем, как продакшн-инженеры следят за бэкендом Facebook, какие инструменты используют, из-за чего возникают крупные сбои и как с ними справиться.
Читать полностью »

19 марта запустится практический курс для системных администраторов Linux от Mail.ru Group

2020-02-17 в 9:13, admin, рубрики: linux, mail.ru, sre, Блог компании Mail.Ru Group, системное администрирование

19 марта запустится практический курс для системных администраторов Linux от Mail.ru Group - 1

Мы запускаем практический учебный курс для будущих системных администраторов Linux, инженеров доступности сервисов (SRE). Это будет квест, во время которого вы получите хорошую базовую подготовку, а также сможете проверить себя в условиях, максимально приближенных к реальным.

Читать полностью »

Евгений Варавва, разработчик в Google. Как описать Google в 5 словах

2020-02-13 в 7:26, admin, рубрики: Google, it-эмиграция, sre, Блог компании Southbridge, Дублин, интервью, Ирландия, карьера, Карьера в IT-индустрии, Киевский политехнический институт, новые культуры, Программирование, разработка, сан-франциско, США, трудности переезда

Можно ли описать Goggle в нескольких словах? Компанию, в которой сотни подразделений, порой настолько экспериментальных, что вплотную приближаются к научной фантастике. Компанию, в которой работают сотни тысяч человек по всему миру.

Наверное, Google — для каждого своей. Для каждого наблюдателя — сотрудника, независимого разработчика и админа, конкурента, просто человека интересующегося IT-тематикой, пользователя в сети, вбивающего в адресную строку браузера google.com.

Я познакомился c Евгением Вараввой, разработчиком широкого профиля в Google (Сан-Франциско), на Слёрме SRE — он там вовсю с удовольствием запутывал участников задачками, неожиданными багами и проблемами учебного проекта.

А после, когда начали расставлять столы, усталые участники прощаться друг с другом, сотрудники Слёрма убирали провода, роутеры и сетевые удлинители, я пригласил Евгения поговорить — каким он видит Google. Изнутри. И изменилась ли его ощущение и точка зрения за десяток лет работы в компании.

Что получилось — читайте…

Евгений Варавва, разработчик в Google. Как описать Google в 5 словах - 1

Читать полностью »

Слёрм SRE. Сплошной эксперимент c экспертами из Booking.com и Google.com

2020-02-06 в 9:43, admin, рубрики: capacity planning, Cascading Failures, ddos, devops, elastic, Error budget, gitlab, Grafana, kubernetes, prometheus, sla, sli, slo, sre, Блог компании Southbridge, интенсив, конференции, конференция, мероприятие, Слёрм, Управление продуктом, управление проектами

Наша команда любит эксперименты. Каждый Слёрм — это не статичное повторение предыдущих, а осмысление опыта и переход от хорошего к лучшему. Но со Слёрмом SRE мы решили применить абсолютно новый формат — дать участникам условия, максимально приближённые к «боевым».

Если кратко обрисовать, чем мы занимались на интенсиве: «Строим, ломаем, чиним,
изучаем». SRE мало чего стоит в голой теории — только практика, реальные решения, реальные проблемы.

Участники были поделены на команды, чтобы бодрый соревновательный дух не дал никому заснуть или запустить «Angry Birds» на iPhone по примеру Дмитрия Анатольевича.

Проблемы, глюки, баги и задачи обеспечивали участникам четыре ментора. Иван Круглов, Principal Developer в Booking.com (Нидерланды). Бен Тайлер, Principal Developer в Booking.com (США). Эдуард Медведев, CTO в Tungsten Labs (Германия). Евгений Варавва, разработчик широкого профиля в Google (Сан-Франциско).

Да ещё и участники поделены на команды — и соревнуются друг с другом. Интересно?

Слёрм SRE. Сплошной эксперимент c экспертами из Booking.com и Google.com - 1
Иван, Бен, Эдуард и Евгений с добрым ленинским прищуром смотрят на бедных участников Слёрм SRE перед началом соревнования.

Читать полностью »

Еще раз о DevOps и SRE

2020-01-25 в 19:42, admin, рубрики: devops, sre, разработка

По мотивам дискуссии в чате AWS Minsk Community

В последнее время разгораются настоящие битвы на предмет определения понятия DevOps и SRE.
Несмотря на то, что уже во многом дискуссии на эту тему уже набили оскомину, в том числе и мне, решил вынести на суд хабра-сообщества и свой взгляд на эту тему. Тем, кому интересно, добро пожаловать под кат. И да начнется все по новой!
Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «sre» - 3

Post Mortem по недоступности Quay.io

Kubernetes в ДомКлик: как спать спокойно, управляя кластером на 1000 микросервисов

Путь разработчика в SRE: зачем идти в инфраструктуру и что из этого выйдет

Как мы эвакуировали дежурную смену Яндекса

Эксплуатация большой распределённой системы: чему я научился

Взгляд изнутри на надежность сервисов Facebook

19 марта запустится практический курс для системных администраторов Linux от Mail.ru Group

Евгений Варавва, разработчик в Google. Как описать Google в 5 словах

Слёрм SRE. Сплошной эксперимент c экспертами из Booking.com и Google.com

Еще раз о DevOps и SRE