Рубрика «хранилища данных» - 18

Добрый день! Меня зовут Данил Липовой, наша команда в Сбертехе начала использовать HBase в качестве хранилища оперативных данных. В ходе его изучения накопился опыт, который захотелось систематизировать и описать (надеемся, что многим будет полезно). Все приведенные ниже эксперименты проводились с версиями HBase 1.2.0-cdh5.14.2 и 2.0.0-cdh6.0.0-beta1.

  1. Общая архитектура
  2. Запись данных в HBASE
  3. Чтение данных из HBASE
  4. Кэширование данных
  5. Пакетная обработка данных MultiGet/MultiPut
  6. Стратегия разбивки таблиц на регионы (спилитинг)
  7. Отказоустойчивость, компактификация и локальность данных
  8. Настройки и производительность
  9. Нагрузочное тестирование
  10. Выводы

Читать полностью »

Все организации, которые имеют хоть какое-то отношение к данным, рано или поздно сталкиваются с вопросом хранения реляционных и неструктурированных баз. Непросто найти одновременно удобный, эффективный и недорогой подход к этой проблеме. А еще сделать так, чтобы на данных смогли успешно работать дата-сайентисты с моделями машинного обучения. У нас получилось – и хотя пришлось повозиться, итоговый профит оказался даже больше ожидаемого. Обо всех подробностях расскажем ниже.

Из нагруженной MPP СУБД — бодрый Data Lake с аналитическими инструментами: делимся подробностями создания - 1
Читать полностью »

Технологии виртуализации сегодня востребованы не только в сегменте «большого бизнеса», но и в SMB и у домашних пользователей. В частности для небольших компаний сервера виртуализации могут применяться для реализации некоторого числа не очень ресурсоемких служебных сервисов. При этом речь обычно идет об автономных серверах на базе одно- или двухпроцессорных платформ, с относительно небольшим объемом оперативной памяти в 32-64 ГБ и без специальных высокопроизводительных СХД. Но за всей чередой преимуществ нужно отдавать себе отчет, что с точки зрения производительности виртуальные системы отличаются от реальных. В этой статье будет проведено сравнение скорости локальных накопителей разных типов (HDD, SSD и NVMe) для нескольких конфигураций виртуальных машин с целью оценить потери от их виртуализации. Никто не спорит, что в «правильных» реализациях систем виртуализации лучше использовать внешнюю СХД, но в бюджетном варианте можно обойтись и локальными дисками.
Читать полностью »

Решения для работы с RAID-массивами из жестких дисков используются уже очень давно. В целом они продолжают оставаться популярными во многих областях, когда требуется относительно недорогой отказоустойчивый массив большого объема. Учитывая размеры современных винчестеров, их скорость, а также и другие причины, наибольший практический интерес вызывают массивы RAID6 (или RAID60, если дисков много). Но этот тип массивов имеет невысокую производительность на операциях случайной записи и сделать что-либо с этим непросто.

Конечно, в данном случае речь идет о скорости «сырого тома». В реальной жизни к нему добавляется файловая система, операционная система, приложения и все такое. Так что на самом деле не все так плохо. Однако есть и программно-аппаратные способы увеличения производительности, независимые от указанных подсистем. Речь идет о технологиях кэширования, когда к массиву из жестких дисков добавляется существенно более быстрый накопитель на базе флэшпамяти.
Читать полностью »

Привет! Предлагаем вашему вниманию отличный обзор системы хранения данных (СХД) Lenovo DS6200, выполненный изданием THG.

Обзор системы хранения данных Lenovo DS6200 - 1

Читать полностью »

Цикл статей: построение NAS, либо домашнего мини-сервера - 1

Как видно из новостей, облака и крупные компании — это удобно и надёжно, но далеко не всегда:

Так что, кормить облачные сервисы хорошо, но в некоторых случаях "своя рубашка ближе к телу".

Изначально, одной из моих целей являлось исследование построения собственной системы, в частности NAS с возможностью работы "домашним сервером".

Постепенно возникла идея, что в свете недавних событий, информация такого плана интересна, и неплохо бы аккумулировать её в одном месте, структурировать и дополнить.
В итоге, должно сформироваться что-то вроде общедоступных best practices для энтузиастов, начиная от выбора и сборки железа и заканчивая программным обеспечением.

Данная статья является оглавлением к статьям по построению NAS.

Читать полностью »

Проектирование программной платформы защищённого NAS - 1

Допустим, аппаратная часть NAS собрана и на неё установлена ОС, например, как показано здесь. И сейчас у вас есть работающий сервер с Debian, который загружается, подключен в сеть, и вы имеете к нему полный физический доступ.

Теперь надо спроектировать среду, позволяющую легко и безопасно добавлять, удалять прикладные сервисы, а также управлять их работой.

Читать полностью »

С учетом роста данных в наше время все чаще говорится о программно-определяемых и распределенных хранилищах данных, причем немало внимания традиционно уделяется открытой платформе Сeph. Сегодня мы хотим рассказать о тех выводах, к которым мы пришли в процессе реализации проекта по хранению данных для одного крупного российского ведомства.
Читать полностью »

Появляется всё больше решений, которые уходят от традиционного подхода унифицированных хранилищ. Это специализированные хранилища, которые заточены под задачи определённого направления бизнеса. Ранее я уже рассказывал о системе Infinidat InfiniBox F2230. Сегодня в центре моего обзора SolidFire.

SolidFire — СХД для тех, who **cking hate storage - 1

«Who f*cking hate storage» @ Дэйв Хитс, основатель компании NetApp
Читать полностью »

Проблема утечки ПД пользователей социальных сетей и веб-сервисов все чаще обсуждается в СМИ. Вероятно, все слышали историю с аналитической компанией Cambridge Analytica, которая смогла заполучить персональные данные 87 млн пользователей Facebook (в том числе данные самого Марка Цукерберга).

Однако есть и менее известные кейсы с утечками ПД, масштаб проблемы которых ничуть не меньше. Разберем несколько примеров и поговорим, какие меры предпринимают регуляторы и IT-компании в попытках предотвратить подобные случаи.

«Вечная течь»: как регуляторы борются со сливами персональных данных - 1Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js