Привет. Я делаю онлайн-сервис для скачивания видео, бэкенд на Python (FastAPI + yt-dlp). За месяц набрали ~1500 DAU и упёрлись в проблему: пользователи жалуются на «не работает», а в админке зелёные графики. История о том, как сделать видимыми ошибки, которые молча умирали в логах воркера, и почему первый же релиз пришлось переделывать из-за alert-fatigue.
TL;DR
-
У нас 3 ноды: master (FastAPI на :443) и 2 worker’а (Docker, yt-dlp). Воркеры падали в
unavailable/private/age-restricted, но эти ошибки никогда не доходили до админки — они умирали вdocker logs, где их никто не читал. -
Сделали bridge: воркер POST’ит ошибку в master по
Читать полностью »

