Рубрика «сбои»

Пользователи жалуются на сбои у Avito -- на сайте и в приложении не работают чаты, людям неудобно обсуждать потенциальные сделки. Проблемы начались около 10 утра, продолжались на момент публикации.

Тем временем, директора по продукту «Авито» обманул мошенник на самом Avito, передаёт «База».

Читать полностью »

image

Мобильное приложение Robinhood, которое предлагает торговать традиционными и криптовалютными активами без комиссии, не работало в течении всего дня 2 марта. Причиной послужил системный сбой. Именно 2 марта наблюдался рост рынков, и клиенты приложения были заинтересованы в торгах, но так и не получили доступ к счетам. Читать полностью »

Аварии «часов не наблюдают»: статистическое обоснование для режима работы техподдержки 24-7 - 1

По результатам проведения многочисленных эксплуатационных оценок ЦОДов по всему миру Uptime Institute отметил, что штатная укомплектованность персонала в дата-центрах сильно варьируется от места к месту. Это наблюдение несколько озадачивает, но это неудивительно. Хотя кадровое наполнение является важным аспектом деятельности для центров обработки данных, которые пытаются сохранить эксплуатационное превосходство, множество других факторов влияют на решение организаций о требуемом уровне укомплектования персоналом.

Среди факторов, которые могут повлиять на общую штатную численность можно выделить сложность центра обработки данных, текучесть кадров, количество требуемых рабочих часов техподдержки, количество контрактов с подрядчиками и бизнес-цели обеспечения доступности. Расходы также вызывают беспокойство, поскольку каждый сотрудник является для ЦОДа прямыми затратами. Из-за этих многочисленных факторов необходимо постоянно пересматривать уровень укомплектованности центров обработки данных персоналом, чтобы обеспечить эффективную поддержку по разумной цене.

Uptime Institute часто получают вопрос: «Каков надлежащий уровень укомплектованности персонала для моего ЦОДа?». К сожалению, нет лаконичного ответа, который был бы универсален для каждого дата-центра. Надлежащее кадровое обеспечение зависит от ряда переменных.Читать полностью »

Перевод статьи Designing a Microservices Architecture for Failure.

Микросервисная архитектура благодаря точно определённым границам сервисов позволяет изолировать сбои. Однако, как и в любой распределённой системе, здесь выше вероятность проблем на уровне сети, оборудования или приложений. Как следствие зависимости сервисов, любой компонент может оказаться временно недоступен для пользователей. Чтобы минимизировать влияние частичных сбоев, нам нужно построить устойчивые к ним сервисы, которые могут корректно реагировать на определённые типы проблем.

В этой статье представлены самые распространённые методики и архитектурные шаблоны для построения и оперирования высокодоступной микросервисной системой.
Читать полностью »

Джефф Этвуд, возможно, самый читаемый программист-блоггер, опубликовал пост против использования памяти ECC. Как я понимаю, его доводы такие:

  • В Google не использовали ECC, когда собирали свои серверы в 1999 году.
  • Большинство ошибок ОЗУ — это ошибки систематические, а не случайные.
  • Ошибки ОЗУ возникают редко, потому что аппаратное обеспечение улучшилось.
  • Если бы память ECC имела на самом деле важное значение, то она использовались бы везде, а не только в серверах. Плата за такого рода опциональный материал явно слишком сомнительна.

Давайте рассмотрим эти аргументы один за другим:
Читать полностью »

Беды мировых фондовых рынков: киберпреступления, стихийные бедствия и человеческий фактор - 1

Тайфун «Нида», обрушившийся на Гонконг 2 августа, приостановил экономическую жизнь крупнейшего финансового центра Азии. Тропический циклон стал причиной отмены полутора сотен авиарейсов, закрытия торговых центров и прекращения на один день торгов на крупнейшем рынке ценных бумаг и деривативов — Гонконгской фондовой бирже. Впрочем, далеко не всегда причиной «падения» бирж становятся стихийные бедствия и локальные катаклизмы. Рассмотрим неожиданные происшествия, способные привести к «биржевым неполадкам». Читать полностью »

Судный день: К чему приводят скрытые ошибки асинхронной обработки данных при росте нагрузки - 1

В нашем блоге мы рассказываем не только о развитии своего продукта — биллинга для операторов связи «Гидра», но и описываем сложности и проблемы, с которыми сталкиваемся на этом пути. Ранее мы уже описывали ситуацию, в которой бесконтрольный рост таблиц в базе данных одной компании-пользователя нашей системы привел к настоящему DoS.

Сегодня речь пойдет о еще одном интересном случае внезапного сбоя, который сделал «день смеха» 1 апреля этого года совсем не смешным для службы поддержки «Латеры».Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js