Рубрика «надежность»

У вас есть Grafana. Она показывает графики с Prometheus. Prometheus скрейпит метрики с ваших сервисов. Если сервис упал — вы видите красный на дашборде. Если Prometheus упал — вы не видите ничего. Дашборд замирает на последних известных значениях. Если не знать, что Prometheus лежит, можно час смотреть на «зелёный» дашборд, который на самом деле показывает данные часовой давности.

Это не гипотетика. Я видел это дважды. Первый раз — Prometheus съел диск на мониторинг-сервере (да, Prometheus хранит данные на диске, и этот диск тоже может закончиться). Второй раз — kubelet убил pod с Prometheus из-за OOM, а Pod Disruption Budget не был настроен.

Читать полностью »

Эпические баги: как один Break положил телефонную сеть по всему США в 1990 г - 1

В подразделении, где я работаю, есть традиция - новичку при онбординге вручается ссылка на WikiЧитать полностью »

…Был обычный ноябрьский вечер, 2024 год шёл к своему завершению: на носу была «чёрная пятница». Я вернулся домой в Новосибирск из почти двухнедельной командировки, пробыв в пути 12 часов и поспав часа четыре. В 19:07 алерт сообщил мне о падении одного из контроллеров. В целом, проблема не критичная, так как сервисы зарезервированы. Но всё же одним глазом я заглянул в чат с разбором.

Читать полностью »

Битва кода с множеством проверок против чистого хрупкого кода

Битва кода с множеством проверок против чистого хрупкого кода

Читать полностью »

Команда AI for Devs перевела статью, в которой автор делится прогнозами о будущем ИИ-агентов в 2025 году. Его выводы: несмотря на шумиху, «автономные агенты» столкнутся с экономическими и техническими барьерами. Почему текущий подход к архитектуре агентов не сработает и какие методы действительно приносят результат — читайте в статье.


Я разработал более 12 систем AI-агентов в таких областях, как разработка, DevOps и обработка данных. Вот почему текущий ажиотаж вокруг автономных агентов математически невозможен, и что действительно работает в продакшене.

Читать полностью »

10 Принципов отказоустойчивости (с примерами на Javascript) - 1

Отказоустойчивость (англ. resilience, fault tolerance) — это способность системы продолжать работу, несмотря на внутренние ошибки, сбои в зависимостях или непредвиденные ситуации.

Читать полностью »

Всем привет!
Меня зовут Александр, я COO в SaaS-платформе аналитики данных. Последний год активно изучаю внедрение AI-решений в кросс-функциональные процессы. Делюсь полезными материалами, которые считаю стоят внимания. В основном про AI, изменение процессов, тренды и продуктовое видение.

У себя в телеграм-канале делюсь сжатыми и структурированными саммери статей.

Сегодняшний перевод — Ultrathink: why Claude is still the king

Читать полностью »

Привет! Меня зовут Лиза, я работаю заместителем директора по качеству в компании ГРАН Груп. Начав свой профессиональный путь инженером-конструктором, затем технологом, я занималась подготовкой проектов к производству и внедрением в них принципов DFM. Другими словами, в мире печатных плат я достаточно давно и успела получить достаточный уровень компетенций и опыта в этой области. Поработав с проектами плат разного уровня сложности и направленности, я поняла, каким образом можно сделать платы качественными и надежными еще на этапе конструирования. 

Читать полностью »

Занимаюсь практическим применением больших языковых моделей в бизнесе. При этом, постоянно приходится слышать, что искусственный интеллект нельзя использовать в бизнесе, потому что «галлюцинации». Откуда взялось это расхожее мнение, что на самом деле и какие есть простые и эффективные способы повышения надежности, обо всем этом попробую сейчас рассказать.

Ох уж эти галлюцинации! Кто только не попался на эту удочку. От рядовых пользователей до целых коллективов с академическим статусом, публикующихся на arxiv. Наиболее яркий пример тому: Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js