Рубрика «uptime»

Как реализуется отказоустойчивая веб-архитектура в платформе Mail.ru Cloud Solutions - 1

Привет! Я Артем Карамышев, руководитель команды системного администрирования Mail.Ru Cloud Solutions (MCS). За последний год у нас было много запусков новых продуктов. Мы хотели добиться, чтобы API-сервисы легко масштабировались, были отказоустойчивыми и готовыми к быстрому росту пользовательской нагрузки. Наша платформа реализована на OpenStack, и я хочу рассказать, какие проблемы отказоустойчивости компонентов нам пришлось закрыть, чтобы получить отказоустойчивую систему. Я думаю, это будет любопытно тем, кто тоже развивает продукты на OpenStack.

Общая отказоустойчивость платформы складывается из устойчивости её компонентов. Так что мы постепенно пройдём через все уровни, на которых мы обнаружили риски и закрыли их.

Видеоверсию этой истории, первоисточником которой стал доклад на конференции Uptime day 4, организованной ITSumma, можно посмотреть на YouTube-канале Uptime Community.
Читать полностью »

Летом традиционно снижается и покупательская активность, и интенсивность изменения инфраструктуры веб-проектов, говорит нам Капитан Очевидность. Просто потому что даже айтишники, случается, ходят в отпуск. И CТО тоже. Тем тяжелее тем, кто остаётся на посту, но сейчас не об этом: возможно, именно поэтому лето — лучший период для того, чтобы не торопясь обдумать существующую схему резервирования и составить план по её улучшению. И в этом вам будет полезен опыт Егора Андреева из AdminDivision, о котором он рассказал на конференции Uptime day.

При строительстве резервных площадок, при резервировании есть несколько ловушек, в которые можно попасть. А попадаться в них совершенно нельзя. И губит нас во всем этом, как и во многом другом, перфекционизм и… лень. Мы пытаемся сделать всё-всё-всё идеально, а идеально делать не нужно! Нужно делать только определённые вещи, но сделать их правильно, довести до конца, чтоб они нормально работали.

Failover — это не какая-то такая весёлая фановая штука «чтоб было»; это вещь, которая должна сделать ровно одно — уменьшить время простоя, чтобы сервис, компания, теряла меньше денег. И во всех методах резервирования я предлагаю думать в следующем контексте: где деньги?

Failover: нас губит перфекционизм и… лень - 1
Читать полностью »

На сегодняшний день у сервиса «Битрикс24» нет сотен гигабит трафика, нет огромного парка серверов (хотя и существующих, конечно, немало). Но для многих клиентов он является основным инструментом работы в компании, это настоящее business-critical приложение. Поэтому падать — ну, никак нельзя. А что если падение все-таки случилось, но «восстал» сервис так быстро, что никто ничего и не заметил? И как удаётся реализовать при этом failover без потери качества работы и количества клиентов? Александр Демидов, директор направления облачных сервисов «Битрикс24», рассказал для нашего блога о том, как за 7 лет существования продукта эволюционировала система резервирования.

«Битрикс24»: «Быстро поднятое не считается упавшим» - 1
Читать полностью »

Uptime day: 12 апреля, полёт нормальный - 1

«Да чего же ждать от конференций? Сплошь танцовщицы, вино, гулянки» — шутил герой фильма «Послезавтра».
Наверное, на каких-то конференциях и не такое бывает (делитесь историями в комментах), но на it-сборищах обычно вместо вина пиво (по завершении), а вместо танцовщиц — «танцы» с кодами и информационными системами. 2 года назад мы тоже вписались в эту хореографию, организовав конференцию Uptime day. В этом апреле, на День космонавтики, мы проводим её уже в четвёртый раз — традиционно бесплатно и традиционно под аккомпанемент вопросов «зачем вам это надо?»
На весеннем Uptime day будем говорить об организации резервирования веб-проектов со сложной распределённой архитектурой — способам переключения с боевого окружения на резервное, а также разбору различных сценариев отката и переключения на резервную площадку в случае неудачного деплоя.
А зачем нам это надо?.. Об этом под катом. И о том, чем вам будет полезна конференция Uptime day.

Читать полностью »

По причине блокирования целых подсетей, многие сайты попадают под раздачу случайно. При этом обнаружить сей факт достаточно сложно, потому что Роскомнадзор утверждает, что все хорошо и такого адреса в базе нет. Так как история продолжает набирать обороты, сервис мониторинга ХостТрекер допилил функцию проверки блокировки, и теперь она позволяет сопоставлять конкретные адреса с содержанием базы блокировок. И давать однозначный ответ.

Как убедиться, что мой сайт не заблокирован РКН - 1
Читать полностью »

В связи с всем известными обстоятельствами, сервис мониторинга сайтов ХостТрекер предлагает возможность бесплатного использования наших инструментов для целей информирования общественности, сбора статистики и других интересных вещей. Цель — спасти всех. Ну или хотя бы ползти в том направлении. Что и как можно cделать, а также наши рекомендации для тех, кого это явление уже затронуло или потенциально может затронуть — под катом.

Инструмент для мониторинга околороскомнадзорных пертурбаций - 1
Читать полностью »

Недавно в Москве проходила вторая конференция по эксплуатации и администрированию информационных систем Uptime.commuinty, на которой мы тоже решили поделиться своим опытом. У нас как обычно, про наболевшее — про DDoS.

DDoS в обход Куратора: простые действия для спокойной жизни - 1

DDoS-атаки на Хабр начались лет десять назад и до сих пор представляют для нас неприятную проблему. Сначала были робкие попытки чуть-чуть подзалить, а сейчас для нас обычный DDoS — это порядка 30 Гбит/с. Это и не удивительно, потому что сейчас у каждой бабушки в Москве есть 50Мб. Всё по классике: одна старушка — 50, 10 старушек — 500…

Читать полностью »

Через три недели, в пятницу, 13-го, в коворкинге Deworkacy в Москве пройдет уже вторая конференция сообщества Uptime, тема которой — аварии в ИТ-инфраструктуре. Мест всего 300, участие бесплатное — под катом есть ссылка на регистрацию.

image
Читать полностью »

Второй Uptime day (первый прошёл в апреле) мы решили посвятить фатальным происшествиям в IT-инфраструктуре — такие рано или поздно случаются в жизни у каждого. Выбрать дату было несложно — встречайте «Uptime day: Пятница, 13-е» (кстати, в этом году осталась только одна такая пятница).

image

Про аварии не принято говорить публично. Есть IT-конференции про разработку, высокие нагрузки, но тем не менее, аварии — это часть жизни любого бизнеса и как их устранять, как сделать так, чтобы их не повторять, как научиться понимать, как их быстрее решать — это важнейшие вопросы в жизни любого проекта. Читать полностью »

Проверка на наличие определенного контента на сайте — одна из наиболее востребованных функций сервиса мониторинга сайтов ХостТрекер. Под катом мы расскажем, в каких случаях и почему это важно и рассмотрим несколько реальных ситуаций.
Проверка вашего сайта на целостность контента: видит ли клиент то, что должен? - 1
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js