…Был обычный ноябрьский вечер, 2024 год шёл к своему завершению: на носу была «чёрная пятница». Я вернулся домой в Новосибирск из почти двухнедельной командировки, пробыв в пути 12 часов и поспав часа четыре. В 19:07 алерт сообщил мне о падении одного из контроллеров. В целом, проблема не критичная, так как сервисы зарезервированы. Но всё же одним глазом я заглянул в чат с разбором.
Рубрика «инцидент-менеджмент»
Ночь с пятницы на понедельник: борьба за устойчивость, когда облако дало сбой
2026-02-05 в 6:00, admin, рубрики: sla, инцидент-менеджмент, инциденты, надежность, отказоустойчивость, отказоустойчивость сетей, отказоустойчивые системыСледствие вели, или Культура инцидент- и проблем-менеджмента в Ozon
2025-07-21 в 8:35, admin, рубрики: incident, incident management, problem management, sre, troubleshooting, инцидент-менеджмент, управление инцидентами, управление проблемами
Обрыв каналов связи, багованный релиз, мискоммуникация… Серия загадочных событий, авантюрный детектив из цикла «Следствие вели…» — нет, не с Леонидом Каневским, и даже не Колобки — а команда разбора инцидентов Ozon, или просто Post.
RAG‑агент для автоматизации инцидент‑менеджмента
2025-05-24 в 12:02, admin, рубрики: AI, automation, BigData, machine learning, nlp, rag, инцидент-менеджментАвтор статьи: Александр Летуновский
Проблематика
Современные крупные организации сталкиваются с большим числом ИТ‑инцидентов — счет может идти на тысячи в месяц. Инциденты нередко повторяются со временем, однако найти похожий случай в базе знаний или в системе регистрации инцидентов непросто: стандартный поиск по ключевым словам часто неэффективен, а «держать в голове» детали всех инцидентов невозможно.
Сбой с вероятностью один раз в 20 лет: о мартовском инциденте в дата-центре
2025-04-07 в 5:00, admin, рубрики: datacenters, аварии в дата-центрах, аварии на цод, аварийные ситуации, дата-центры, инцидент-менеджмент, инциденты, цод30 марта сервисы, размещённые в одном из наших основных дата‑центров, оказались недоступны. К инциденту привела авария на опорной подстанции, которая спровоцировала отказ сразу двух вводов питания и последующий каскадный сбой оборудования.
Повышение качества выпускаемого ПО путем работы с инцидентами
2025-03-21 в 7:27, admin, рубрики: инцидент-менеджмент, инциденты, отказоустойчивые системы, стабильность системыВсем привет! Меня зовут Даша Мельникова, я ведущий релиз-менеджер в МКБ.
У нас в IT более 2500 сотрудников в 120+ команд, и этими силами мы раз в две недели выпускаем более 500 релизов. В рамках этой статьи мы будем говорить об инцидентах, и их количество относительно общего числа задач будет небольшим, но мы будем улучшать сами процессы.
Postmortem, или как разобрать инцидент и ни с кем не разругаться (ну… или почти ни с кем)
2023-07-01 в 7:09, admin, рубрики: инцидент, инцидент-менеджмент, Управление продуктомПеред тем, как начнем разговор об этой материи, должен предупредить, что не стОит гуглить слово Postmortem, особенно картинки. На рубеже XIX-XX веков это была не самая лицеприятная традиция фотографирования недавно покинувшей этот мир родни. Содержание текста ниже к этой практике никакого отношения не имеет.
Что есть Postmortem в епархии информационных технологий?
Перефразируя Толкиена, рассказы о том, как мы добились успешного успеха — однообразны и скучны, а вот повествования об инцидентах часто получаются просто захватывающими. Так вот, одной из разновидностей этих «котоламповых» историй и является Postmortem.
Как и зачем выстраивать коммуникации с пользователями
2021-08-15 в 10:27, admin, рубрики: highload, IT-стандарты, Блог компании Конференции Олега Бунина (Онтико), инцидент-менеджмент, инциденты, коммуникации, общение с коллегами, общение с пользователем, отношения с коллегами, пользователи, пользовательские сценарии, системное администрирование, управление людьми, Управление сообществомПользователи всегда узнают о проблеме. И будет лучше, если от вас. Потому что, как сказал Чак Паланик: «То, что мы не понимаем, мы можем понимать, как нам угодно». Если мы получаем обрывки информации о какой-то недоступности, мы трактуем ее как угодно, делая выводы, далекие от правды. После чего, понятно, мы уже не доверяем.
Аварии помогают учиться
2019-07-29 в 13:32, admin, рубрики: devops, Анализ и проектирование систем, Блог компании Конференции Олега Бунина (Онтико), инцидент-менеджмент, метрики, постмортем, системное администрированиеЗа 3 последних года в Контуре случилось больше тысячи инцидентов разной степени эпичности. Причины разные: например, 36% вызвано некачественным релизом, а 14% — работами по обслуживанию железа в дата-центре. Откуда статистика? После каждого инцидента пишется отчёт — постмортем. Их пишут дежурные инженеры, которые отреагировали на уведомление об аварии и первыми начали разбираться в ее причинах. Постмортемы анализируются, выявляются и устраняются причины инцидентов, чтобы в дальнейшем подобные инциденты не возникали. Но так было не всегда.
Алексей Кирпичников (BeeVee) с 2008 года программировал в Яндексе: Пробки, спортивные спецпроекты, был тимлидом команды бэкенда Яндекс.Такси. С 2014 года занимается DevOps и инфраструктурой в Контуре — разрабатывает инструменты, которые облегчают жизнь разработчиков из продуктовых команд. Идея писать и анализировать постмортемы появилась пять лет назад, и за это время постмортемы обросли шаблонами, глоссарием, памятками, скриншотами и аналитикой. Но не это самое сложное — труднее было преодолеть инертность, страхи и непонимание смысла отчетов об инцидентах среди инженеров. Что в итоге получилось и какую непоправимую пользу может нанести «диванная аналитика» — в расшифровке доклада Алексея.

Обратите внимание — под ножки стола разной длины подложены книжки «Метрики», «Тесты» и «Деплой».
Читать полностью »
Анатомия инцидента, или как работать над уменьшением downtime
2018-09-17 в 9:20, admin, рубрики: devops, okmeter, Блог компании okmeter.io, инцидент-менеджмент, системное администрирование
Рано или поздно в любом проекте настает время работать над стабильность/доступностью вашего сервиса. Для каких-то сервисов на начальном этапе важнее скорость разработки фич, в этот момент и команда не сформирована полностью, и технологии выбираются не особо тщательно. Для других сервисов (чаще технологические b2b) для завоевания доверия клиентов необходимость обеспечения высокого uptime возникает с первым публичным релизом. Но допустим, что момент X все-таки настал и вас начало волновать, сколько времени в отчетный период "лежит" ваш сервис. Под катом я предлагаю посмотреть, из чего складывается время простоя, и как эффективнее всего работать над его уменьшением.
ITSM-менеджер по счастью: как профессия будущего помогает расширить границы сервис деск
2018-07-16 в 14:11, admin, рубрики: help desk, Help Desk Software, itsm, service desk, внедрение сервис деск, инцидент-менеджмент, Управление продуктом, управление проектами, управление разработкой«Что за бред? Разве бывают менеджеры по счастью?» – спросит пессимист, прочитав название статьи. «А ведь идея вполне реальная! В ОАЭ давно настоящий министр счастья работает!» – парирует оптимист.
А причем тут информационные технологии? Обо всем по порядку. В начале этого года известная российская ИТ-компания предложила поучаствовать в серии тематических мероприятиях по применению принципов сервисного подхода вне ИТ в качестве эксперта. Общая цель мероприятий – поделиться опытом, как организовать эффективное взаимодействие между сервисными подразделениями компании и бизнесом, используя методы и инструменты сервисного подхода. Моей задачей было показать на реальных примерах, что и как сделать для достижения результата.
Вопросами оптимизации бизнес-процессов с применением сервисного подхода я активно занимаюсь последние 10 лет. И мне всегда интересно общаться с коллегами на эту тему.
По результатам этих мероприятий и с учетом последних тенденций в мире ИТ я решил порассуждать в статье о том, как во время глобальных цифровых трансформаций, о которых говорят первые лица с больших экранов, не остаться просто «айтишником», а стать ИТ-специалистом по счастью.
