Рубрика «инцидент»

Иногда инцидент начинается не с 5xx и не с красного графика

Он начинается с одной стойки

И с одного таймаута

09:12 - alert: db-replica-02 connection timeout

HAProxy зелёный
HTTP 5xx = 0.2%
p50 = 38–42ms

Минимальная схема

Минимальная схема

2 стойки
В каждом свой ToR
Primary и app в rack-1
Replica-01 в rack-1
Replica-02 в rack-2

Читать полностью »

Любой инженер, сталкивавшийся с инцидентами в ИТ-системах, знает: решение часто есть в документации. Проблема в том, что найти его — как искать иголку в стоге сена. Документация объёмная, разрозненная, специфичная и написана далеко не всегда для людей. Время идёт, SLA поджимает.

Но что если бы у нас был помощник, который мгновенно читал бы всю документацию, понимал бы контекст сбоя и предлагал конкретные рекомендации? Сегодня это возможно — благодаря большим языковым моделям (LLM), таким как GPT-4, Claude, Gemini и другим.

Читать полностью »

Введение

Начнем серию статей под названием Detection is easy, посвященных Detection engineering (DE), о чем я пишу в одноименном Telegram-канале. Один из этапов DE - определение источников событий и организация их сбора. В этой статье мы рассмотрим установку ElastiflowЧитать полностью »

Все началось с того, как FDA предложили изъять из продажи в США некоторые безрецептурные препараты от простуды и гриппа. Дескать: «эти препараты неэффективны». В этот же момент австралийская юридическая фирма подала коллективный иск против фармацевтического гиганта Johnson & Johnson, утверждая, что компания на протяжении многих лет сознательно продвигала и продавала неэффективные противоотечные средства. А камнем преткновения стал псевдоэфедрин.

Читать полностью »

Всем привет, меня зовут Вадим Макеров, я работаю в iSpring бэкенд-разработчиком.

Мы разрабатываем систему управления обучением (LMS - learning management system) iSpring Learn. Внутри система представляет из себя модульный монолит на PHP с почти сотней микросервисов на Go. Мы используем Kubernetes, Service Mesh, gRPC и прочие модные технологии :) Сейчас я работаю во внутренней команде Core, которая занимается внутренними улучшениями нашей системы.

Читать полностью »

Пятничный вечер не предвещал беды. Напротив, я был доволен собой. В этот раз делаю все вовремя, с хорошим запасом по срокам. Заказал из Москвы в Екатеринбург очередную порцию одного лекарства. Лекарства довольно дорогого. И критически необходимого для одного из членов моей семьи.

Предыдущей пачки должно было хватить до следующего воскресенья. Доставка из Москвы в Екатеринбург обычно длится несколько дней. Все выглядело как никогда уверенно.

Читать полностью »

Перед тем, как начнем разговор об этой материи, должен предупредить, что не стОит гуглить слово Postmortem, особенно картинки. На рубеже XIX-XX веков это была не самая лицеприятная традиция фотографирования недавно покинувшей этот мир родни. Содержание текста ниже к этой практике никакого отношения не имеет.

Что есть Postmortem в епархии информационных технологий?

Перефразируя Толкиена, рассказы о том, как мы добились успешного успеха —  однообразны и скучны, а вот повествования об инцидентах часто получаются просто захватывающими. Так вот, одной из разновидностей этих «котоламповых» историй и является Postmortem.

Читать полностью »

6 февраля пользователи могли заметить частичную недоступность сервисов Яндекса. Проблема возникла из-за каскадного сбоя в работе сетевого оборудования.

Основной пик пришёлся на период с 17:03 до 17:50, когда общие потери трафика достигали 40%. Кроме того, в период с 17:03 до 17:13 наблюдалась практически полная потеря IPv6 трафика. Инцидент удалось устранить к 21:30.

Как это произошло и какие выводы мы из этого извлекли — ответим на эти вопросы и поделимся нашим опытом.

О сетевой аварии в Яндексе - 1

Читать полностью »

Ядерное оружие - это добро. Но только когда оно мирно лежит на складах и своим существованием напоминает, что лучше не делать так, чтобы его со склада достали. Правда к этой простой истине в ВВС США пришли не сразу.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js