Uptime day 2: российские ИТ-компании расскажут о том, как справляются с катастрофами

в 14:19, , рубрики: uptime, Блог компании ITSumma, конференции, Серверное администрирование, системное администрирование

Через три недели, в пятницу, 13-го, в коворкинге Deworkacy в Москве пройдет уже вторая конференция сообщества Uptime, тема которой — аварии в ИТ-инфраструктуре. Мест всего 300, участие бесплатное — под катом есть ссылка на регистрацию.

image

Немного истории

Идея назвать так конференцию (и сообщество) пришла нам в одно и то же время с ребятами из Code&Supply в Питтсбурге. Их домен uptime.events зарегистрирован 28 марта 2017, наш uptime.community — 14 марта. Первая наша конференция состоялась в апреле, смотрите видеозаписи.

В августе в Питтсбурге прошла подобная нашей конференция, я был на ней волонтером-звукооператором и даже немного выступал.

image

Что будет на Uptime day 2

Итак, 13 октября в Москве мы обсудим ИТ-катастрофы, которые случались в жизни сотрудников Badoo, Carprice, «Ревизиума», ITSumma, «Битрикс24».

Мой доклад — «Менеджмент инцидентов и исследование жизненного цикла аварии». Обратной стороной технического прогресса в 20 веке стало большое количество техногенных катастроф. Эксплуатация высоконагруженных проектов — это такой же технологический процесс, какие ежедневно происходят в авиации, в медицине и крупной промышленности. В этих сферах многие десятилетия есть практика расследования крупных инцидентов и детального разбора причин произошедших аварий для того, чтобы избежать их в будущем. Однако в нашей сфере по сей день отсутствуют единые практики, которые позволят не допустить повторения уже пройденных ошибок. Каждая компания подходит к этому вопросу на свой лад, зачастую не зная, что наступает на те же грабли, о которые сотни раз спотыкались их коллеги.

Круглосуточно поддерживая сайты 350 клиентов, мы сталкиваемся в среднем с десятью серьезными авариями в день, при этом около половины из них происходит из-за человеческого фактора. Для нас важно обучить специалистов с обеих сторон тому, как можно избежать подобных аварий.

На примере реальных аварий я покажу те методики и технологии, которые применяет ITSumma для решения уже возникших инцидентов и, что важнее, предотвращения их в будущем.

Рассмотрим такие процессы:
1. Фиксация того, как взаимодействуют между собой участники команды во время устранения аварии.
2. Создание и анализ пост-мортемов аварий.
3. Разработка рекомендаций и регламентов для нас и для клиентов.
4. Разработка программного обеспечения для менеджмента инцидентов.
5. Внедрение результатов анализа в ежедневные процедуры разработки и поддержки.

Пятница, 13-е — отличный день, чтобы поговорить о катастрофах. Участие бесплатное, регистрируйтесь.

Автор: Евгений Потапов

Источник

Поделиться

* - обязательные к заполнению поля