- PVSM.RU - https://www.pvsm.ru -

Uptime day 2: российские ИТ-компании расскажут о том, как справляются с катастрофами

Через три недели, в пятницу, 13-го, в коворкинге Deworkacy в Москве пройдет уже вторая конференция сообщества Uptime, тема которой — аварии в ИТ-инфраструктуре. Мест всего 300, участие бесплатное — под катом есть ссылка на регистрацию.

image

Немного истории

Идея назвать так конференцию (и сообщество) пришла нам в одно и то же время с ребятами из Code&Supply в Питтсбурге. Их домен uptime.events зарегистрирован 28 марта 2017, наш uptime.community [1] — 14 марта. Первая наша конференция состоялась в апреле, смотрите видеозаписи [2].

В августе в Питтсбурге прошла подобная нашей конференция, я был на ней волонтером-звукооператором и даже немного выступал.

image

Что будет на Uptime day 2

Итак, 13 октября в Москве [1] мы обсудим ИТ-катастрофы, которые случались в жизни сотрудников Badoo, Carprice, «Ревизиума», ITSumma, «Битрикс24».

Мой доклад — «Менеджмент инцидентов и исследование жизненного цикла аварии». Обратной стороной технического прогресса в 20 веке стало большое количество техногенных катастроф. Эксплуатация высоконагруженных проектов — это такой же технологический процесс, какие ежедневно происходят в авиации, в медицине и крупной промышленности. В этих сферах многие десятилетия есть практика расследования крупных инцидентов и детального разбора причин произошедших аварий для того, чтобы избежать их в будущем. Однако в нашей сфере по сей день отсутствуют единые практики, которые позволят не допустить повторения уже пройденных ошибок. Каждая компания подходит к этому вопросу на свой лад, зачастую не зная, что наступает на те же грабли, о которые сотни раз спотыкались их коллеги.

Круглосуточно поддерживая сайты 350 клиентов, мы сталкиваемся в среднем с десятью серьезными авариями в день, при этом около половины из них происходит из-за человеческого фактора. Для нас важно обучить специалистов с обеих сторон тому, как можно избежать подобных аварий.

На примере реальных аварий я покажу те методики и технологии, которые применяет ITSumma для решения уже возникших инцидентов и, что важнее, предотвращения их в будущем.

Рассмотрим такие процессы:
1. Фиксация того, как взаимодействуют между собой участники команды во время устранения аварии.
2. Создание и анализ пост-мортемов аварий.
3. Разработка рекомендаций и регламентов для нас и для клиентов.
4. Разработка программного обеспечения для менеджмента инцидентов.
5. Внедрение результатов анализа в ежедневные процедуры разработки и поддержки.

Пятница, 13-е — отличный день, чтобы поговорить о катастрофах. Участие бесплатное, регистрируйтесь [1].

Автор: Евгений Потапов

Источник [3]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/konferentsii/264189

Ссылки в тексте:

[1] uptime.community: http://uptime.community/ru/uptimeday-2

[2] смотрите видеозаписи: https://habrahabr.ru/company/itsumma/blog/328024/

[3] Источник: https://habrahabr.ru/post/338432/?utm_source=habrahabr&utm_medium=rss&utm_campaign=best