Рубрика «sre»

Как мы случайно сделали стартап, пока учили ИИ работать с реальной инфраструктурой

2025-12-25 в 20:38, admin, рубрики: AI, automation, devops, incident management, Infrastructure, kubernetes, llm, production, sre, ssh

Когда мы впервые увидели AI-чаты, это выглядело впечатляюще. Они писали код, помогали с документацией, объясняли архитектурные решения.

Это было хорошо. Но довольно быстро стало понятно главное:

Для реальной работы этого недостаточно.

ИИ умеет говорить, но не видит, что происходит в системе

Читать полностью »

Я установил k3s на Arch, чтобы вам не пришлось

2025-12-09 в 12:17, admin, рубрики: archlinux, containers, devops, fish, k3s, kubernetes, linux, shell, sre, systemd

Статья для тех, кто пытался поставить k3s на Arch Linux (и основанные на нём дистрибутивы) и столкнулся с зависающим установщиком, проблемами DNS и отсутствующими systemd юнитами. Полное руководство по ручной установке с реальными командами и решениями.

В мире контейнеризации есть негласное правило:

хочешь учить Kubernetes локально — ставь minikube;
хочешь что-то ближе к production — бери k3s.

Документация обещает установку «в одну команду» и поддержку «большинства современных Linux-дистрибутивов».
Я использую CachyOS (Arch-based), изучаю инфраструктуру под DevOps/SRE и хотел локальный Kubernetes, который:

Читать полностью »

Как я перестал тушить пожары и начал говорить с бизнесом на языке SLO

2025-08-26 в 9:16, admin, рубрики: alerting, devops, Error budget, monitoring, observability, sli, slo, sre, постмортем

Горящие релизы и ночные дежурства: мой персональный ад

Когда я пришёл на проект, всё было похоже на нескончаемый пожар. В продакшене сыпались алерты один за другим, CI/CD-пайплайны (GitLab и Jenkins) постоянно фейлили, а релизы проходили хаотично — каждый новый билд мог «уложить» сервис. Я пил кофе в три ночи, когда прозвучал очередной звонок на мобильник: «сервис упал — немедленно разбирайся!». MTTR (Mean Time To Recovery)Читать полностью »

Следствие вели, или Культура инцидент- и проблем-менеджмента в Ozon

2025-07-21 в 8:35, admin, рубрики: incident, incident management, problem management, sre, troubleshooting, инцидент-менеджмент, управление инцидентами, управление проблемами

Обрыв каналов связи, багованный релиз, мискоммуникация… Серия загадочных событий, авантюрный детектив из цикла «Следствие вели…» — нет, не с Леонидом Каневским, и даже не Колобки — а команда разбора инцидентов Ozon, или просто Post.

Читать полностью »

Как работает DNS в Linux. Часть 2: все уровни DNS-кэширования

2025-07-08 в 11:00, admin, рубрики: DNS, linux, sre, системное администрирование

Привет! И вновь на связи Анатолий Кохан, DevOps-инженер из К2Тех.

В первой части мы разобрали, как в Linux работает процесс разрешения имен — от вызова getaddrinfo() до получения IP-адреса. Однако если бы каждый вызов требовал нового DNS-запроса, это было бы неэффективно и сильно нагружало как систему, так и сеть. Поэтому используется кэширование.

Читать полностью »

Как работает DNS в Linux. Часть 1: от getaddrinfo до resolv.conf

2025-06-18 в 11:00, admin, рубрики: devops, DNS, linux, sre, архитектура, инженерные системы, инфраструктура, облачные сервисы, системное администрирование, системный инжиниринг

Привет! Меня зовут Анатолий Кохан, я — DevOps-инженер в К2Тех.

Когда мы вводим в браузере имя сервера или доменное имя сайта, выполняем ping или запускаем любое удаленное приложение, операционная система должна преобразовать указанные имена в IP-адреса. Этот процесс называется разрешением доменного имени. На первый взгляд он может показаться весьма прозрачным, однако за ним скрывается многослойный механизм.

Данная статья — начало серии, посвященной низкоуровневой архитектуре разрешения имен. Поговорим о том, как устроен этот процесс в Linux на уровне ядра, различных библиотек C и системных вызовов.

---

Читать полностью »

Погружение в инструменты диагностики Linux. Часть 1 — sysdig

2025-01-23 в 18:13, admin, рубрики: cli, devops, diagnostics, kernel, linux, performance, sre, tools, tuning

Котлеги, привет. Вдохновленный серией статей от Евгения Козлова про CPU, Memory Models, Concurrency, Multiprocess, Multithreading и Async, я решил написать свой цикл статей по инструментам диагностики производительности Linux с примерами.

Сегодняшний обзор я начну с тулы, которая по моему мнению является серебряной пулей в вопросах диагностики проблем с производительностью — sysdig. Конечно, чаще всего ее использование бывает избыточным, но может настать тот момент, когда обычных средств может не хватить.

Читать полностью »

Математика надёжности. Доклад Яндекса

2024-08-16 в 13:00, admin, рубрики: reliability, resilience, sre, доклад яндекса, надежность

Привет, меня зовут Вадим. Я делаю платформу надёжности в Яндекс Go. Инструментов для улучшения надёжности много, поэтому перед нашей командой всегда стоит выбор, что делать сейчас, а что отложить на месяц, квартал, год. Под катом я покажу пример инструмента для приоритизации таких проектов, а по пути мы разберёмся с тем, что такое надёжность технических систем, из чего она состоит и как её можно считать.

Что такое надёжность

Давайте синхронизируемся, что же мы будем понимать под надёжностью в этой статье.

Читать полностью »

Как несвязанные коммиты в пакетах Linux привели к неожиданным проблемам. Практические истории из SRE-будней. Часть 7

2024-02-07 в 7:21, admin, рубрики: ceph, containerd, devops, docker, kubernetes, linux, sre, systemd, кластер, хранилище данных

Всем привет! На связи Вадим Лазовский, SRE-инженер продукта Deckhouse Observability Platform от компании «Флант», и Владимир Гурьянов, solution architect. Сегодня мы поделимся кейсом, который произошёл у нас при работе с Ceph. При этом его решение может быть применимо для любого другого ПО.

Читать полностью »

Обзор Coroot — Open Source-утилиты для наблюдаемости: установка, настройка, возможности, плюсы и минусы

2023-06-16 в 6:37, admin, рубрики: devops, eBPF, kubernetes, observability, open source, sre, Блог компании Флант

В этой статье мы протестируем Coroot — observability-инструмент с открытым исходным кодом на основе технологии eBPF. Coroot не просто собирает данные телеметрии, но и анализирует их, превращая в полезную информацию, которая помогает быстро выявлять и устранять проблемы с приложениями. Расскажем, как установить и настроить Coroot, что утилита умеет и какие у нее плюсы и минусы. Для обзора мы выбрали бесплатную версию.

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «sre»

Как мы случайно сделали стартап, пока учили ИИ работать с реальной инфраструктурой

ИИ умеет говорить, но не видит, что происходит в системе

Я установил k3s на Arch, чтобы вам не пришлось

Как я перестал тушить пожары и начал говорить с бизнесом на языке SLO

Горящие релизы и ночные дежурства: мой персональный ад

Следствие вели, или Культура инцидент- и проблем-менеджмента в Ozon

Как работает DNS в Linux. Часть 2: все уровни DNS-кэширования

Как работает DNS в Linux. Часть 1: от getaddrinfo до resolv.conf

Погружение в инструменты диагностики Linux. Часть 1 — sysdig

Математика надёжности. Доклад Яндекса

Что такое надёжность

Как несвязанные коммиты в пакетах Linux привели к неожиданным проблемам. Практические истории из SRE-будней. Часть 7

Обзор Coroot — Open Source-утилиты для наблюдаемости: установка, настройка, возможности, плюсы и минусы