Основная проблема в высоконагруженных приложениях — отказоустойчивость. Нагрузка с упавших узлов в кластере должна переключаться на живые. Это кажется несложной задачей, но на практике появляется много подводных камней. Мы с yngvar_antonsson потратили много времени на поддержку различных кластеров, построенных на Tarantool и наших кластерных фреймворках Cartridge и TDG, и сегодня расскажем вам, как обеспечивается отказоустойчивость в наших приложениях. Будет интересно всем, кто хочет подробнее узнать, как устроен фейловер в Cartridge, и тем, кто хочет узнать о нашем опыте создания автоматических фейловеров.
Читать полностью »
Рубрика «отказоустойчивость»
Отказоустойчивая архитектура: почему Tarantool не падает?
2023-10-24 в 9:01, admin, рубрики: tarantool, архитектура, отказоустойчивостьХороший ретрай, плохой ретрай, или История одного падения
2023-09-27 в 7:00, admin, рубрики: circuit breaker, retry, даунтайм, отказоустойчивость, распределенные системыПорой простое и очевидное решение может потянуть за собой хвост проблем в будущем. Например, добавление ретраев.
Меня зовут Денис Исаев, и я работаю в Яндекс Go. Сегодня я поделюсь опытом решения проблем с отказоустойчивостью из-за ретраев. Основано на реальных инцидентах в системе из 800 микросервисов.
Этот пост — продолжение вымышленных историй о разработчике Васе, который несколько лет назад разбирался с идемпотентностью в распределённых системах. Теперь перед ним новые задачи — получится ли справиться с ними в этот раз? Давайте узнаем.
YTsaurus: основная система для хранения и обработки данных Яндекса теперь open source
2023-03-20 в 10:57, admin, рубрики: big data, c++, open source, YTsaurus, Блог компании Яндекс, Большие данные, инфраструктура, отказоустойчивостьПривет! Меня зовут Максим Бабенко, я руковожу отделом технологий распределённых вычислений в Яндексе. Сегодня мы выложили в опенсорс платформу YTsaurus — одну из основных инфраструктурных BigData-систем, разработанных в Яндексе.
Как работают объектные хранилища: OpenStack Swift
2023-03-07 в 14:36, admin, рубрики: open source, openstack swift, Блог компании Selectel, объектное хранилище, отказоустойчивость, распределенные системы, хранилища данныхНеожиданный мартовский мороз ласкает щеки городских жителей, спешно марширующих вдоль проспектов по направлению к своим рабочим местам. В их головах широким спектром разливается сладкая истома — предвкушение отдыха.
Раз меньше времени работе, то больше — знаниям. Меня зовут Рома, и я работаю в объектном хранилище — самой высоконагруженной услуге Selectel. Здесь мы непрерывно трудимся над улучшением и развитием архитектуры, удовлетворяя спрос на пропускную способность, функциональность и надежность.
В первой части я поделился сложностями, которые возникают при попытке построить распределенное и отказоустойчивое хранилище для объектов. Та система, которую мы позволили себе нафантазировать, очень похожа на OpenStack Swift. С него начиналась история нашего продукта, так что мы можем не только разобрать принцип его работы «на пальцах», но и погрузиться в скрытые особенности OpenSource, которые проявляются лишь в больших масштабах.
Читать полностью »
Как работают объектные хранилища: объясняем на практике и собственных шишках
2022-12-16 в 8:27, admin, рубрики: openstack swift, Блог компании Selectel, консистентное хеширование, объектное хранилище, отказоустойчивость, распределенные системы, хранилища данныхБыть может, специфика такого хранилища прячется в задачах, которые оно решает? Сложно сказать наверняка, ведь сегодня объектные хранилища занимаются массой вещей: от раздачи статического контента до хранения бэкапов и бэкенда аналитических баз данных.
Попытки понять природу непривычных ограничений порождают лишь новые вопросы: почему можно удалять только пустой контейнер? Почему нельзя быстро перенести большой объем данных из одного контейнера в другой? Да и вообще, что это за название такое — объектные — и какая магия творится под капотом?
На связи Рома из команды объектного хранилища Selectel, и я изучил наш опыт разработки и поддержки такого продукта на протяжении 10 лет. Под катом находится первая часть истории, где я поделюсь своими открытиями о теоретической части вопроса.
Читать полностью »
Как мы автоматизировали работу с Kafka: через тернии к Cruise Control
2022-10-26 в 12:34, admin, рубрики: cruisecontrol, devops, highload, open source, ozon tech, Анализ и проектирование систем, Блог компании Ozon Tech, высокая производительность, мультицодовость, отказоустойчивостьКак новость про +4 выходных дня уронила нам базу данных
2021-04-30 в 10:55, admin, рубрики: incident response, mysql, proxysql, Администрирование баз данных, Блог компании Туту.ру, выходные шрёдингера, отказоустойчивость, Серверное администрированиеЭтот день — яркий пример того, как несколько вещей, которые сами по себе не приводят к отказу, могут удачно совпасть. Итак, 23 апреля было совершенно обычным днём, с обычным трафиком и обычной загрузкой ресурсов. Как обычно, с запасом больше трети, чтобы при потере любого из ЦОДов пережить это без проблем. Никто не думал, что к серверному мониторингу нужно прикручивать ещё мониторинг того, что говорит президент на прямой линии, поэтому дальше случилось вот что:
Примерно в 13:30 у нас резко подскочила нагрузка на поиск по авиации и по железнодорожным билетам. Где-то в этот момент РЖД сообщила о перебоях на сайте и в приложении, а мы начали экстренно наливать дополнительные инстансы бекендов во всех ЦОДах.
Но на самом деле проблемы начались раньше. Примерно в 8 утра мониторинг прислал алерт про то, что на одной из реплик базы данных у нас что-то подозрительно много долгоживущих процессов. Но мы это прошляпили, сочли не очень важным.
Читать полностью »
Как превратить две серверные стойки в сеть для десятков тысяч машин и не остаться в неоплатном техническом долгу
2021-04-08 в 8:02, admin, рубрики: Clos, автоматизация, Блог компании Яндекс, датацентры, команда яндекс.облака, масштабируемость, облачные сервисы, отказоустойчивость, Серверное администрирование, сетевая автоматизация, Сетевые технологии, сети, ЦОДы, Шарль Кло или Чарльз Клоз?, яндекс.облакоКак и любое другое облако, Yandex.Cloud — это многослойная иерархия абстракций: SaaS, лежащий поверх PaaS, запущенный на IaaS. Связность виртуальной инфраструктуры обеспечивает виртуальная же сеть, которая является, по сути, оверлеем. И только в самой глубине этой системы обнаруживается физическая сеть из проводов и коммутаторов. Мало кто вспоминает о ней, пока всё работает. А меж тем она — кровеносная система всей платформы.
Привет, я Марат Сибгатулин, сетевой инженер Yandex.Cloud. Яндекс про свою сеть рассказывал уже не раз. И про её физическую инфраструктуру, и про особенности устройства Yandex.Cloud, и про то, как вообще работает виртуальная сеть. Не буду повторяться. Расскажу о том, как мы запустили публичное облако на том, что было — на двух стойках, и масштабировали его до сети для десятков тысяч серверов, не наращивая неоплатный технический долг.
Мы практикуем следующий подход к созданию и развитию чего бы то ни было: прототип → минимально необходимая функциональность и масштаб → рост → эволюционное развитие. На первый взгляд он естественен и очевиден, в отличие от подхода «сделать сразу идеально и на века». На деле — требует вдумчивого предварительного планирования, чтобы потом не подставлять в горячке новые костыли под старые, пытаясь поспеть за внезапным ростом.
Читать полностью »
Как подготовить сайт к росту нагрузки
2020-04-03 в 8:26, admin, рубрики: diy или сделай сам, highload, ITSumma, Блог компании ITSumma, высокая нагрузка, инфраструктура, карантин, коронавирус, облака, облачные сервисы, оптимизация инфраструктуры, отказоустойчивость, рост нагрузки, рост трафика, системное администрирование, трафик
Только ленивый не достал с дальней полки свою экспертность и не предсказал «онлайнизацию» жизни — такую же вынужденную, как и режим самоизоляции. Но трафик, действительно, уже начал расти, а с учётом «каникул» до конца апреля ресурсы, предлагающие доставку товаров, услуги онлайн-образования и, особенно, онлайн-развлечений, могут оказаться не готовыми к потоку посетителей в новой реальности.
Опираясь на свой 12-летний опыт технической поддержки веб-проектов и удалённого администрирования серверов, мы подготовили своего рода «методичку»: что стоит проверить и о чём нужно позаботиться, если вы хотите быть уверенным, что ваш сайт справится с любой нагрузкой. Ну, почти любой.
Итак, вот 10 пунктов, которые критичны для активной жизни вашего веб-проекта в ближайшие дни и недели:
Читать полностью »
Архитектура AERODISK vAIR или особенности национального кластеростроения
2019-11-11 в 2:00, admin, рубрики: Aerodisk, erasure codes, Erasure Coding, HCI, high availability, hyperconverged, hyperconverged cluster, IOPS, linux, replication, SAN, scale-out, storage, Блог компании AERODISK, гиперконвергентная система, гиперконвергентность, гиперконвергентные платформы, гиперконвергентные системы, гиперконвергенция, импортозамещение, отказоустойчивость, репликация, российское оборудование, Серверное администрирование, система хранения данных, системное администрирование, СХД, хранение данных, хранилища данных
Привет, Хабровчане! Мы продолжаем знакомить вас с российской гиперконвергентной системой AERODISK vAIR. В этой статье речь пойдет об архитектуре данной системы. В прошлой статье мы разобрали нашу файловую систему ARDFS, а в данной статье пройдёмся по всем основным программным компонентам, из которых состоит vAIR, и по их задачам.