Рубрика «хранение данных»

Продолжаем обсуждать технологические новинки, представленные на конференции VMware EMPOWER 2019 в Лиссабоне. Наши материалы по теме на Хабре:

Технологии хранения и защиты данных — третий день на VMware EMPOWER 2019 - 1
Читать полностью »

В связи с набирающей популярностью Rook хочется поговорить о его подводных камнях и проблемах, которые ждут вас на пути.

О себе: Опыт администрирования ceph с версии hammer, основатель комьюнити t.me/ceph_ru в телеграм.

Дабы не быть голословным я буду ссылаться на принятые хабром (судя по рейтингу) посты о проблемах с ceph. С бОльшей частью проблем в этих постах я тоже столкнулся. Ссылки на использованный материал в конце поста.

В посте про Rook мы упоминаем ceph не просто так — Rook по сути ceph завернутый в kubernetes, а значит наследует все его проблемы. С проблем ceph и начнем.
Читать полностью »

Bitmap-индексы в Go: поиск на дикой скорости - 1

Вступительное слово

Я выступил с этим докладом на английском языке на конференции GopherCon Russia 2019 в Москве и на русском — на митапе в Нижнем Новгороде. Речь в нём идёт о bitmap-индексе — менее распространённом, чем B-tree, но не менее интересном. Делюсь записью выступления на конференции на английском и текстовой расшифровкой на русском.

Мы рассмотрим, как устроен bitmap-индекс, когда он лучше, когда — хуже других индексов и в каких случаях он значительно быстрее них; увидим, в каких популярных СУБД уже есть bitmap-индексы; попробуем написать свой на Go. А «на десерт» мы воспользуемся готовыми библиотеками, чтобы создать свою супербыструю специализированную базу данных.

Очень надеюсь, что мои труды окажутся для вас полезными и интересными. Поехали!
Читать полностью »

Автор статьи, перевод которой мы публикуем сегодня, говорит, что её цель — рассказать о разработке веб-скрапера на Python с использованием Selenium, который выполняет поиск цен на авиабилеты. При поиске билетов используются гибкие даты (+- 3 дня относительно указанных дат). Скрапер сохраняет результаты поиска в Excel-файле и отправляет тому, кто его запустил, электронное письмо с общими сведениями о том, что ему удалось найти. Задача этого проекта — помощь путешественникам в поиске наиболее выгодных предложений.

Python — помощник в поиске недорогих авиабилетов для тех, кто любит путешествовать - 1

Если вы, разбираясь с материалом, почувствуете, что потерялись — взгляните на эту статью.
Читать полностью »

Rook или не Rook — вот в чём вопрос - 1

В начале этого месяца, 3 мая, был анонсирован крупный релиз «системы управления для распределённых хранилищ данных в Kubernetes» — Rook 1.0.0. Более года назад мы уже публиковали общий обзор Rook. Тогда же нас просили рассказать об опыте его использования на практике — и вот, как раз к столь значимой вехе в истории проекта, мы рады поделиться накопленными впечатлениями.

Если кратко, Rook представляет собой набор операторов для Kubernetes, которые полностью берут под контроль развертывание, управление, автоматическое восстановление таких решений для хранения данных, как Ceph, EdgeFS, Minio, Cassandra, CockroachDB.Читать полностью »

Зачем Минпромторгу запрет на хранение данных на зарубежном оборудовании - 1 На Федеральном портале проектов нормативных правовых актов опубликован проект постановления об установлении запрета на допуск программно-аппаратных комплексов систем хранения данных (СХД) иностранного происхождения для участия в закупках для обеспечения государственных и муниципальных нужд. Написано, что в целях обеспечения безопасности критической информационной инфраструктуры (КИИ) России и для национальных проектов. К КИИ относят, например, информационные системы госорганов, оборонные и энергетические предприятия, кредитно-финансовые организации, операторов связи c большим количеством абонентов. Подтверждением страны происхождения товара является выданное Минпромторгом заключение. Постановление должно действовать в течение двух лет со дня его вступления в силу.

В пояснительной записке говорится, что эти меры направлены на защиту внутреннего рынка, развитие национальной экономики и поддержку российских товаропроизводителей. В Минпромторге уверены, что рынок такой продукции в России сформирован и представлен российскими производителями вычислительной техники, среди которых называют «Байкал Электроникс», «ДЕПО Электроникс», «ИНЭУМ им. И.С. Брука», «КНС Групп» (компания Ядро), «Крафтвэй Корпорэйшн Плс», «МЦСТ», «НИИМЭ», НПЦ «Элвис», «НЦИ», «Т-платформы». Эти производители могут «обеспечить соответствующее качество и необходимые объемы поставок» для государственных нужд, заключают в ведомстве. В Минпромторге комментарий получить не удалось.

Читать полностью »

Первым делом, приступая к работе с новым набором данных, нужно понять его. Для того чтобы это сделать, нужно, например, выяснить диапазоны значений, принимаемых переменными, их типы, а также узнать о количестве пропущенных значений.

Библиотека pandas предоставляет нам множество полезных инструментов для выполнения разведочного анализа данных (Exploratory Data Analysis, EDA). Но, прежде чем воспользоваться ими, обычно нужно начать с функций более общего плана, таких как df.describe(). Правда, надо отметить, что возможности, предоставляемые подобными функциями, ограничены, а начальные этапы работы с любыми наборами данных при выполнении EDA очень часто сильно похожи друг на друга.

Ускорение разведочного анализа данных с использованием библиотеки pandas-profiling - 1

Автор материала, который мы сегодня публикуем, говорит, что он — не любитель выполнения повторяющихся действий. В результате он, в поисках средств, позволяющих быстро и эффективно выполнять разведочный анализ данных, нашёл библиотеку pandas-profiling. Результаты её работы выражаются не в виде неких отдельных показателей, а в форме довольно подробного HTML-отчёта, содержащего большую часть тех сведений об анализируемых данных, которые может понадобиться знать перед тем, как приступать к более плотной работе с ними.
Читать полностью »

Пришла как-то к нам заявка на услуги облака. Мы прикинули в общих чертах, что от нас потребуется, и отправили в ответ список вопросов для уточнения деталей. Затем проанализировали ответы и поняли: заказчик хочет размещать в облаке персональные данные второго уровня защищенности. Отвечаем ему: «У вас второй уровень персданных, извините, можем только частное облако сделать». А он: «Знаете, а вот в компании X мне могут все и в публичном разместить».

«И так сойдет»: что облачные провайдеры не договаривают о персональных данных - 1
Фото Steve Crisp, Reuters

Странные дела! Мы пошли на сайт компании X, изучили их аттестационные документы, покачали головами и поняли: открытых вопросов в размещении персданных очень много и их стоит хорошенько провентилировать. Чем мы и займемся в этом посте.
Читать полностью »

Несколько предыдущих статей в нашем блоге были посвящены вопросу безопасности персональной информации, которая пересылается при помощи мессенджеров и социальных сетей. Теперь пришло время поговорить о мерах предосторожности относительно физического доступа к устройствам.

Читать полностью »

Всем привет! Недавно столкнулся с простой на первый взгляд задачей — увеличить «на горячую» размер диска на сервере Linux.

Описание задачи

Есть сервер в облаке. В моем случае, это Google Cloud — Compute Engine. Операционная система — Ubuntu. Сейчас подключен диск размером 30 Гб. База растет, файлы пухнут, поэтому нужно увеличить размер диска, допустим, до 50 Гб. При этом мы ничего не отключаем, ничего не перезагружаем.
Читать полностью »