Рубрика «инцидент-менеджмент»

Зоопарк протоколов и человеческий фактор: что внутри сложной IoT-интеграции климатического оборудования

2026-06-23 в 7:01, admin, рубрики: alerting, IoT, MES, беспроводные датчики, инцидент-менеджмент, Ланит, производство, промышленный интернет вещей

Мониторинг температуры в холодильном оборудовании кажется простой задачей. Особенно если речь идет всего о нескольких десятках ларей на одном производственном участке. Но когда эти лари от разных вендоров, с разными протоколами, и их еще и перемещают по цеху, задача перестает быть тривиальной. В этой статье в блоге ЛАНИТ - опыт внедрения IoT-решения без замены оборудования, с примерами ошибок и неочевидных решений. Материал будет полезен тем, кто сталкивается с промышленным мониторингом, выбирает между машинным обучением и простой логикой или пытается подружить разнородное оборудование и создать из него единую систему.

Читать полностью »

Ночь с пятницы на понедельник: борьба за устойчивость, когда облако дало сбой

2026-02-05 в 6:00, admin, рубрики: sla, инцидент-менеджмент, инциденты, надежность, отказоустойчивость, отказоустойчивость сетей, отказоустойчивые системы

…Был обычный ноябрьский вечер, 2024 год шёл к своему завершению: на носу была «чёрная пятница». Я вернулся домой в Новосибирск из почти двухнедельной командировки, пробыв в пути 12 часов и поспав часа четыре. В 19:07 алерт сообщил мне о падении одного из контроллеров. В целом, проблема не критичная, так как сервисы зарезервированы. Но всё же одним глазом я заглянул в чат с разбором.

Читать полностью »

Следствие вели, или Культура инцидент- и проблем-менеджмента в Ozon

2025-07-21 в 8:35, admin, рубрики: incident, incident management, problem management, sre, troubleshooting, инцидент-менеджмент, управление инцидентами, управление проблемами

Обрыв каналов связи, багованный релиз, мискоммуникация… Серия загадочных событий, авантюрный детектив из цикла «Следствие вели…» — нет, не с Леонидом Каневским, и даже не Колобки — а команда разбора инцидентов Ozon, или просто Post.

Читать полностью »

RAG‑агент для автоматизации инцидент‑менеджмента

2025-05-24 в 12:02, admin, рубрики: AI, automation, BigData, machine learning, nlp, rag, инцидент-менеджмент

Автор статьи: Александр Летуновский

Проблематика

Современные крупные организации сталкиваются с большим числом ИТ‑инцидентов — счет может идти на тысячи в месяц. Инциденты нередко повторяются со временем, однако найти похожий случай в базе знаний или в системе регистрации инцидентов непросто: стандартный поиск по ключевым словам часто неэффективен, а «держать в голове» детали всех инцидентов невозможно.

Читать полностью »

Сбой с вероятностью один раз в 20 лет: о мартовском инциденте в дата-центре

2025-04-07 в 5:00, admin, рубрики: datacenters, аварии в дата-центрах, аварии на цод, аварийные ситуации, дата-центры, инцидент-менеджмент, инциденты, цод

30 марта сервисы, размещённые в одном из наших основных дата‑центров, оказались недоступны. К инциденту привела авария на опорной подстанции, которая спровоцировала отказ сразу двух вводов питания и последующий каскадный сбой оборудования.

Читать полностью »

Повышение качества выпускаемого ПО путем работы с инцидентами

2025-03-21 в 7:27, admin, рубрики: инцидент-менеджмент, инциденты, отказоустойчивые системы, стабильность системы

Всем привет! Меня зовут Даша Мельникова, я ведущий релиз-менеджер в МКБ.

У нас в IT более 2500 сотрудников в 120+ команд, и этими силами мы раз в две недели выпускаем более 500 релизов. В рамках этой статьи мы будем говорить об инцидентах, и их количество относительно общего числа задач будет небольшим, но мы будем улучшать сами процессы.

Читать полностью »

Postmortem, или как разобрать инцидент и ни с кем не разругаться (ну… или почти ни с кем)

2023-07-01 в 7:09, admin, рубрики: инцидент, инцидент-менеджмент, Управление продуктом

Перед тем, как начнем разговор об этой материи, должен предупредить, что не стОит гуглить слово Postmortem, особенно картинки. На рубеже XIX-XX веков это была не самая лицеприятная традиция фотографирования недавно покинувшей этот мир родни. Содержание текста ниже к этой практике никакого отношения не имеет.

Что есть Postmortem в епархии информационных технологий?

Перефразируя Толкиена, рассказы о том, как мы добились успешного успеха — однообразны и скучны, а вот повествования об инцидентах часто получаются просто захватывающими. Так вот, одной из разновидностей этих «котоламповых» историй и является Postmortem.

Читать полностью »

Как и зачем выстраивать коммуникации с пользователями

2021-08-15 в 10:27, admin, рубрики: highload, IT-стандарты, Блог компании Конференции Олега Бунина (Онтико), инцидент-менеджмент, инциденты, коммуникации, общение с коллегами, общение с пользователем, отношения с коллегами, пользователи, пользовательские сценарии, системное администрирование, управление людьми, Управление сообществом

Пользователи всегда узнают о проблеме. И будет лучше, если от вас. Потому что, как сказал Чак Паланик: «То, что мы не понимаем, мы можем понимать, как нам угодно». Если мы получаем обрывки информации о какой-то недоступности, мы трактуем ее как угодно, делая выводы, далекие от правды. После чего, понятно, мы уже не доверяем.

Читать полностью »

Аварии помогают учиться

2019-07-29 в 13:32, admin, рубрики: devops, Анализ и проектирование систем, Блог компании Конференции Олега Бунина (Онтико), инцидент-менеджмент, метрики, постмортем, системное администрирование

За 3 последних года в Контуре случилось больше тысячи инцидентов разной степени эпичности. Причины разные: например, 36% вызвано некачественным релизом, а 14% — работами по обслуживанию железа в дата-центре. Откуда статистика? После каждого инцидента пишется отчёт — постмортем. Их пишут дежурные инженеры, которые отреагировали на уведомление об аварии и первыми начали разбираться в ее причинах. Постмортемы анализируются, выявляются и устраняются причины инцидентов, чтобы в дальнейшем подобные инциденты не возникали. Но так было не всегда.

Алексей Кирпичников (BeeVee) с 2008 года программировал в Яндексе: Пробки, спортивные спецпроекты, был тимлидом команды бэкенда Яндекс.Такси. С 2014 года занимается DevOps и инфраструктурой в Контуре — разрабатывает инструменты, которые облегчают жизнь разработчиков из продуктовых команд. Идея писать и анализировать постмортемы появилась пять лет назад, и за это время постмортемы обросли шаблонами, глоссарием, памятками, скриншотами и аналитикой. Но не это самое сложное — труднее было преодолеть инертность, страхи и непонимание смысла отчетов об инцидентах среди инженеров. Что в итоге получилось и какую непоправимую пользу может нанести «диванная аналитика» — в расшифровке доклада Алексея.

Аварии помогают учиться - 1
Обратите внимание — под ножки стола разной длины подложены книжки «Метрики», «Тесты» и «Деплой».
Читать полностью »

Анатомия инцидента, или как работать над уменьшением downtime

2018-09-17 в 9:20, admin, рубрики: devops, okmeter, Блог компании okmeter.io, инцидент-менеджмент, системное администрирование

Рано или поздно в любом проекте настает время работать над стабильность/доступностью вашего сервиса. Для каких-то сервисов на начальном этапе важнее скорость разработки фич, в этот момент и команда не сформирована полностью, и технологии выбираются не особо тщательно. Для других сервисов (чаще технологические b2b) для завоевания доверия клиентов необходимость обеспечения высокого uptime возникает с первым публичным релизом. Но допустим, что момент X все-таки настал и вас начало волновать, сколько времени в отчетный период "лежит" ваш сервис. Под катом я предлагаю посмотреть, из чего складывается время простоя, и как эффективнее всего работать над его уменьшением.

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «инцидент-менеджмент»

Зоопарк протоколов и человеческий фактор: что внутри сложной IoT-интеграции климатического оборудования

Ночь с пятницы на понедельник: борьба за устойчивость, когда облако дало сбой

Следствие вели, или Культура инцидент- и проблем-менеджмента в Ozon

RAG‑агент для автоматизации инцидент‑менеджмента

Проблематика

Сбой с вероятностью один раз в 20 лет: о мартовском инциденте в дата-центре

Повышение качества выпускаемого ПО путем работы с инцидентами

Postmortem, или как разобрать инцидент и ни с кем не разругаться (ну… или почти ни с кем)

Что есть Postmortem в епархии информационных технологий?

Как и зачем выстраивать коммуникации с пользователями

Аварии помогают учиться

Анатомия инцидента, или как работать над уменьшением downtime