Рубрика «авария» - 17

Практика эксплуатационщика: 1000 дней без простоя ЦОДа TIER III
Окисление контактов перемычки аккумулятора вызвало нагрев. При наружном осмотре следов окисления не видно, поскольку оно произошло между клеммой аккумулятора и наконечником перемычки.

Пару недель назад у меня и коллег случился маленький праздник: 1000 дней непрерывной работы ЦОДа без простоя сервиса. В смысле — без влияния на оборудование заказчиков, но со штатными и не очень работами по системам.

Ниже я расскажу о том, как я и мои коллеги обслуживают ЦОД повышенной ответственности, и какие бывают подводные камни.
Читать полностью »

Уважаемые друзья!

Для всех клиентов компании FASTVPS, использующих DNS ферму FASTVPS для своих доменов. СРОЧНО!

Пожалуйста, если Вы используете для своего домена DNS компании FastVPS

Как это узнать?

Вбейте свой домен(ы) на сайте whois.net и обратите внимание на параметр nserver

Если Вы используете — nsX.fastvps.ru (ns3, ns3, ns1, ns2) — пожалуйста, СРОЧНО, измените, сервер ns3.fastvps.ru на FASTDNS24.com или добавьте FASTDNS24.com в качестве дополнительного DNS-сервера, если это позволяет Ваш регистратор.

В противном случае возможен даунтайм Ваших сайтов.

Читать полностью »

Детальный ликбез про корпоративный бэкап, как сравнивать системы + пара практических советов
Cистема резервного копирования может работать вот так

Чем корпоративный бэкап отличается от домашнего?
Масштаб — инфраструктуры до петабайта. Скорость – тысячи транзакций в секунду, поэтому, например, нужно уметь забирать бэкап из базы данных на лету, не останавливая запись. Зоопарк систем: рабочие машины, мобильные телефоны и планшеты, профили людей в «облаке», копии баз данных CRM/ERP, все это на разных ОС и в тяжелых разветвленных системах.

Ниже я расскажу про решения от IBM, EMC, CommVault, Symantec и то, что они дают как бизнесу в целом, так и IT-отделу. Плюс о некоторых подводных камнях.

Давайте посмотрим на эти особенности бэкапа в обычных российских компаниях. В том числе таких, которые бэкапятся только на случай изъятия оборудования. Читать полностью »

Сегодня, в 6 часов 38 минут летнего московского времени с космодрома Байконур состоялся пуск ракеты-носителя «Протон-М» с тремя спутниками «Глонасс-М». Сразу после отрыва от стартового стола ракета-носитель потеряла управление, начала рыскать и врезалась в землю. По некоторым данным примерно в километре от стартового стола, по другим данным — около 5 километров от старта. На месте падения ракеты вспыхнул пожар. Пуск транслировался в прямом эфире в программе «Вести».

Двигатели работали вплоть до момента падения. Аварийная система управления включила форсажный режим, стремясь увести ракету как можно дальше от старта.

Читать полностью »

Системы хранения данных: как медленно, но верно они отвязываются от железа
Авария в первом дата-центре и автоматический перезапуск сервисов в другом

Виртуализация — одна из моих любимых тем. Дело в том, что сейчас можно практически полностью забыть про используемое железо и организовать, например, систему хранения данных в виде «логического» юнита, который умеет взаимодействовать с информацией по простым правилам. При этом все процессы между виртуальным юнитом и реальным железом в разных ЦОДах лежат на системе виртуализации и не видны приложениям.

Это даёт кучу преимуществ, но и ставит ряд новых проблем: например, есть вопрос обеспечения консистентности данных при синхронной репликации, которая накладывает ограничения на расстояния между узлами.

К примеру — скорость света становится реальным физическим барьером, который не даёт заказчику поставить второй ЦОД дальше 40-50, а то и меньше, километров от первого.

Но давайте начнём с самого начала — как работает виртуализация систем хранения, зачем оно всё надо, и какие задачи решаются. И главное — где конкретно вы сможете выиграть и как.Читать полностью »

О наводнении мы узнали глубокой ночью от инженера, следящего за мониторингом. Базовые станции одна за другой показывали сразу каскад аварий (срабатывали чуть ли не все датчики), а потом полностью уходили из сети. Чуть позже в техслужбу начали поступать новости о самом наводнении, на место выехали два инженера из Новороссийска, так как они находились ближе всех, и у одного из них там жили родители.

Город в это время был закрыт на въезд: пускать обещали только к вечеру. Один из наших инженеров пробился в город к обеду (он поспешил к родителям), и после того как убедился, что с семьёй всё в порядке — у них, фактически, было затоплена квартира под потолок, но обошлось без жертв — начал объезжать базовые станции и сообщать что с ними произошло. Подойти удалось только к нескольким, вокруг остальных ещё находилась вода и можно было понять только то, что они были затоплены полностью.

Восстановление связи после наводнения в Крымске
Вот так выглядел город, когда мы приехали — и чем дальше шли, тем больше разрушений видели.Читать полностью »

image
Прежде всего, мы хотим принести официальные извинения за самый большой даунтайм в истории Селектела. Ниже мы постараемся подробно восстановить хронологию событий, рассказать о том, что сделано для предотвращения таких ситуаций в будущем, а также о компенсациях для клиентов, пострадавших в результате этих неполадок.
Читать полностью »

Эта история произошла с ЦОДом одной компании уже довольно давно, все последствия аварии устранены, плюс выполняются доработки, исключающие повторение ситуаций. Тем не менее, отчёт о происшедшем, полагаю, будет интересен и тем, кто занимается дата-центрами, и тем, кто любит почти детективные IT-истории.

Итак, ожидалось плановое отключение электричества. В дата-центр приходило две линии, владельцы ЦОДа заранее знали о ситуации, подготовились и провели все необходимые тесты. Всё что было нужно – просто перейти на дизели по стандартной процедуре.
Читать полностью »

Лично у меня Last.fm не открывается уже порядка 6 часов. Однако официальная информация появилась буквально час-полчаса назад. На странице сервиса в Facebook была опубликована следующая заметка:

Hey folks. The site is currently down due to a major power outage at one of our data centres. We have staff on site, bring things back up.

Привет, народ. Сайт в данный момент не работает из-за серьезного отключения электричества в одном из наших датацентров. Наши сотрудники на месте, занимаются восстановлением.

В твиттере аналогичный пост появился около часа назад: twitter.com/lastfm/status/222625254579765249

UPD: Ссылка на статус служб Last.fm: Читать полностью »

Вышки связи Пожар, разгоревшийся 4 апреля в 5 утра в Роттердаме в здании, расположенном рядом с узлом связи сотового оператора Vodafone, перекинулся на здание узла и вывел из строя находившееся там оборудование. Что повлекло за собой два тяжёлых последствия — заявляет в опубликованном видеоролике (англ.) Роб Шутер (Rob Shuter), CEO Vodafone Netherlands. Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js