Рубрика «отказоустойчивость»

Иногда инцидент начинается не с 5xx и не с красного графика

Он начинается с одной стойки

И с одного таймаута

09:12 - alert: db-replica-02 connection timeout

HAProxy зелёный
HTTP 5xx = 0.2%
p50 = 38–42ms

Минимальная схема

Минимальная схема

2 стойки
В каждом свой ToR
Primary и app в rack-1
Replica-01 в rack-1
Replica-02 в rack-2

Читать полностью »

…Был обычный ноябрьский вечер, 2024 год шёл к своему завершению: на носу была «чёрная пятница». Я вернулся домой в Новосибирск из почти двухнедельной командировки, пробыв в пути 12 часов и поспав часа четыре. В 19:07 алерт сообщил мне о падении одного из контроллеров. В целом, проблема не критичная, так как сервисы зарезервированы. Но всё же одним глазом я заглянул в чат с разбором.

Читать полностью »

TL;DR

Человек — это не тело и не набор данных, а непрерывный субъективный процесс («я-сейчас»).
Копирование сознания не спасает — оно создаёт наследника.
Но если заранее включить в себя нейропротезы и вычислительные контуры, которые уже участвуют в субъективном опыте, то гибель тела перестаёт быть финалом.
Это не бессмертие и не отказ от биологии — это архитектура живучести с жёсткими физическими пределами.


1. Долгая перспектива: у биологии есть дедлайн

Мы живём возле G-звезды (Солнца)Читать полностью »

Привет!

На связи Евгений Ярош, руководитель направления СУБД «Инфосистемы Джет».

Любая распределенная база данных обещает две вещи: неограниченное масштабирование и высочайшую отказоустойчивость. СУБД от Яндекса – YDB -   изначально имеет распределенную архитектуру, где шардирование и восстановление работают «из коробки» и без downtime. Большинство обзоров YDB, которые я изучил, делятся на два типа:

  1. Вендорские презентации: «что YDB умеет».

  2. Академические разборы: «как YDB устроена внутри».

Читать полностью »

Телефонный звонок. Трубку берет отец трех дочерей и слышит:
— Это ты, мой лягушонок?
— Нет. Это хозяин пруда.

В последнее время стало привычно ссылаться на бас-фактор, как на что-то, что обязательно похоронит ваш проект, если вы наймете хоть одного толкового специалиста. Бизнесу, якобы, нужны сплошь взаимозаменяемые винтики, с правильно вывернутым гетеродином лайф-ворк баланса, способные хорошо использовать данные свыше фреймворки и библиотеки.

Читать полностью »

Даже сложная и продуманная технологическая система не застрахована от инцидентов — это касается любых инфраструктур, от железнодорожных и коммунальных до IT. Поэтому инженерам, которые обеспечивают надёжность систем, важно не только предотвращать проблемы, но и минимизировать их влияние за счёт хорошего антикризисного (или DR) плана.

Читать полностью »

10 Принципов отказоустойчивости (с примерами на Javascript) - 1

Отказоустойчивость (англ. resilience, fault tolerance) — это способность системы продолжать работу, несмотря на внутренние ошибки, сбои в зависимостях или непредвиденные ситуации.

Читать полностью »

Казалось бы, майская история с Docker hub должна была научить всех нас уделять больше времени на обеспечение целостности артефактов проекта, но на то мы и люди, чтобы учиться на своих (и чужих) ошибках не с первого раза. В этой статье я поведаю про настоящую историю, которая в этот раз не связана с образами, но связана с библиотеками.

Обыкновенный вторник второй половины октября, через час запланирован релиз в продакшн, ничего не предвещало, а ожидаемые заказчиком фичи уже протестированы вдоль и поперёк, ожидая своего часа.

Читать полностью »

Для OpenFreeMap я использую серверы за Round Robin DNS. В этой статье я пытаюсь понять, как браузеры и CDN выбирают, какой из них использовать.

Что такое циклический DNS?

Обычно, когда вы обслуживаете веб-сайт с помощью VPS, например Digital Ocean или Hetzner, вы добавляете одну запись A в панель управления вашего DNS-провайдера.

Понимание кругового DNS - 1

Это означает, что rr-direct.hyperknot.com будет обслуживать данные с 5.223.46.55.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js