Рубрика «data»

Этот проект родился после беседы с друзьями об инвестициях в недвижимость. Обсуждали, как выгодно купить квартиру, паркинг или келлер под сдачу и выгодно ли вообще.

Я решил проанализировать рынок продажи и аренды гаражей и парковочных мест своего города. Квартиры – слишком дорогие объекты для инвестиций, а что касается гаражей и паркингов – тут «вход» гораздо меньше, и на аренду вроде бы всегда есть спрос.

Читать полностью »
image

Команда Netflix Cloud Data Engineering работает с различными приложениями для JVM, включая такие популярные хранилища данных, как Cassandra и Elasticsearch. Хотя большинство наших кластеров стабильно работают, обходясь выделенной им памятью, иногда «запрос смерти» или ошибка в самом хранилище данных приводят к перерасходу памяти, что может спровоцировать лишние циклы сборки мусора или даже привести к исчерпанию памяти в JVM.
Читать полностью »

Привет! Недавно, пришлось работать на проекте с внешним API. Работал, я, к слову, всегда либо с простым REST, либо с GET/POST only запросами, но в этом нужно было работать с API Timetta. Он использует OData и что же это такое?

Содержание

  1. REST vs OData

  2. Схема

  3. Типы данных

    1. Примитивные

    2. EntityType

    3. ComplexType

    4. EnumType

    5. Collection

    6. EntitySet

  4. Читать полностью »

Настройка и запуск Apache NiFi и Zookeeper, настройка авторизации по LDAP и работа NiFi по HTTPS, настройка и запуск Apache NiFi Registry, пример запуска NiFi c Kerberos — вот темы, которые будут в этой статье.

Apache NiFi: как решить ошибки, которые не гуглятся - 1

Не вижу смысла полностью рассказывать, как настраивать NiFi и NiFi Registry — есть официальная документация и мануалы в сети. Я сосредоточился на ошибках, информации по которым нет, в том числе и на английском. При самостоятельном поиске решения, это реально масса времени. Я провел месяцы в режиме DEBUG и TRACE, чтобы понять, как всё сделать правильно. Готов поделится.
Читать полностью »

К порядку: правила создания конвейеров обработки данных - 1

К 2020 году вы не могли не заметить, что миром правят данные. И, как только речь заходит о работе с ощутимыми объёмами, появляется необходимость в сложном многоэтапном конвейере обработки данных

Читать полностью »

Почему нам нужен DevOps в сфере ML-данных - 1

Развертывание машинного обучения (machine learning, ML) в продакшн – задача нелегкая, а по факту, на порядок тяжелее развертывания обычного программного обеспечения. Как итог, большинство ML проектов так никогда и не увидят света — и продакшена — так как большинство организаций сдаются и бросают попытки использовать ML для продвижения своих продуктов и обслуживания клиентов.

Насколько мы можем видеть, фундаментальное препятствие на пути большинства команд к созданию и развертыванию ML в продакшн в ожидаемых масштабах заключается в том, что нам все еще не удалось привнести практики DevOps в машинное обучение. Процесс создания и развертывания моделей ML частично раскрыт уже вышедшими MLOps решениями, однако им недостает поддержки со стороны одной из самых трудных сторон ML: со стороны данных.
Читать полностью »

Когда создавалась библиотека для валидации данных quartet были поставленны следующие цели-ориентиры:

  • TypeScript
  • Краткость
  • Простота
  • Производительность

В этой статье я хотел бы рассмотреть производительность quartet и её причины.

Будем исследовать этот аспект в сравнении между quartet и другой намного более популярной ajv.

Читать полностью »

Коллектив из бывших инженеров АНБ США и Amazon создает «GitHub для данных» - 1

Около полугода назад у нескольких инженеров и разработчиков с опытом работы в Агентстве национальной безопасности США, Google и Amazon Web Services появилась любопытная идея.

Для создания новых функций и изобретения чего-то нового разработчикам и инженерам нужны данные. Но эти данные часто конфиденциальны и недоступны — из-за бюрократии и разного рода нормативных требований, — и чтобы получить одобрение на их использование, может понадобиться несколько недель. Поэтому недавно был запущен проект Gretel — стартап, цель которого — помочь разработчикам безопасно обмениваться конфиденциальными данными и совместно взаимодействовать с ними в режиме реального времени.

Алекс Уотсон, один из сооснователей проекта, говорит о предназначении новой платформы так: «Это не такая нишевая задача, как может показаться. Разработчики любой компании могут столкнуться с этой проблемой». Зачастую разработчикам нужен не полный доступ к банку пользовательских данных, а лишь фрагмент или выборка для работы. Во многих случаях достаточно будет данных, которые просто выглядят как реальные пользовательские данные.

Читать полностью »

Привет! Мы в Dodo Pizza Engineering очень любим данные (а кто их сейчас не любит?). Сейчас будет история о том, как накопить все данные мира Dodo Pizza и дать любому сотруднику компании удобный доступ к этому массиву данных. Задача под звёздочкой: сохранить нервы команды Data Engineering.

Data Mesh: как работать с данными без монолита - 1Читать полностью »

image

В начале этого года по ряду причин мы загорелись идеей создать самый большой открытый датасет русской речи. Подробнее о нашей мотивации и о том, как всё начиналось,
можно прочитать в этой статье — Огромный открытый датасет русской речи. С тех пор наш проект прошел через ряд масштабных изменений, мы в три раза увеличили количество данных, повысили их качество, добавили лейблы для спикеров и сейчас мы наконец готовы представить вам версию 1.0.

Также мы не готовы останавливаться на достигнутом и планируем продолжать делать интесивную работу над ошибками в последующих версиях и улучшать качество уже опубликованных данных. Версию 1.1 мы планируем посвятить масштабной работе над ошибками.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js