Рубрика «data»

Покупка гаража как инвестиция

2023-02-20 в 22:24, admin, рубрики: analysis, analytics, big data, data, python, недвижимость

Этот проект родился после беседы с друзьями об инвестициях в недвижимость. Обсуждали, как выгодно купить квартиру, паркинг или келлер под сдачу и выгодно ли вообще.

Я решил проанализировать рынок продажи и аренды гаражей и парковочных мест своего города. Квартиры – слишком дорогие объекты для инвестиций, а что касается гаражей и паркингов – тут «вход» гораздо меньше, и на аренду вроде бы всегда есть спрос.

Читать полностью »

Сборка мусора в неисправных JVM, проактивный подход

2022-11-18 в 14:00, admin, рубрики: cassandra, cloud, data, elasticsearch, java, jvm, netflix, node.js, oom, python, timeweb_статьи_перевод, Блог компании Timeweb Cloud, дамп, Компиляторы, логи, ОС, Программирование, файл, хранение данных

Команда Netflix Cloud Data Engineering работает с различными приложениями для JVM, включая такие популярные хранилища данных, как Cassandra и Elasticsearch. Хотя большинство наших кластеров стабильно работают, обходясь выделенной им памятью, иногда «запрос смерти» или ошибка в самом хранилище данных приводят к перерасходу памяти, что может спровоцировать лишние циклы сборки мусора или даже привести к исчерпанию памяти в JVM.
Читать полностью »

Кратко об OData

2022-07-24 в 6:27, admin, рубрики: crud, data, data mining, odata, open data protocol, веб-сервисы, данные, открытые данные, поисковые технологии, протокол, Разработка веб-сайтов, стандарт

Привет! Недавно, пришлось работать на проекте с внешним API. Работал, я, к слову, всегда либо с простым REST, либо с GET/POST only запросами, но в этом нужно было работать с API Timetta. Он использует OData и что же это такое?

Содержание

REST vs OData
Схема
Типы данных
Читать полностью »

Apache NiFi: как решить ошибки, которые не гуглятся

2022-06-07 в 7:11, admin, рубрики: Apache, big data, data, data engineering, NiFi, NiFi Deployment, Блог компании Группа НЛМК, хранение данных

Настройка и запуск Apache NiFi и Zookeeper, настройка авторизации по LDAP и работа NiFi по HTTPS, настройка и запуск Apache NiFi Registry, пример запуска NiFi c Kerberos — вот темы, которые будут в этой статье.

Apache NiFi: как решить ошибки, которые не гуглятся - 1

Не вижу смысла полностью рассказывать, как настраивать NiFi и NiFi Registry — есть официальная документация и мануалы в сети. Я сосредоточился на ошибках, информации по которым нет, в том числе и на английском. При самостоятельном поиске решения, это реально масса времени. Я провел месяцы в режиме DEBUG и TRACE, чтобы понять, как всё сделать правильно. Готов поделится.
Читать полностью »

К порядку: правила создания конвейеров обработки данных

2020-12-30 в 12:10, admin, рубрики: data, pipelines, базы данных, Блог компании Badoo, данные, конвейер, Программирование, хранение данных, хранилища данных

К 2020 году вы не могли не заметить, что миром правят данные. И, как только речь заходит о работе с ощутимыми объёмами, появляется необходимость в сложном многоэтапном конвейере обработки данных.

Читать полностью »

Почему нам нужен DevOps в сфере ML-данных

2020-05-04 в 9:37, admin, рубрики: big data, data, devops, ITSumma, ml, Блог компании ITSumma, машинное обучение

Почему нам нужен DevOps в сфере ML-данных - 1

Развертывание машинного обучения (machine learning, ML) в продакшн – задача нелегкая, а по факту, на порядок тяжелее развертывания обычного программного обеспечения. Как итог, большинство ML проектов так никогда и не увидят света — и продакшена — так как большинство организаций сдаются и бросают попытки использовать ML для продвижения своих продуктов и обслуживания клиентов.

Насколько мы можем видеть, фундаментальное препятствие на пути большинства команд к созданию и развертыванию ML в продакшн в ожидаемых масштабах заключается в том, что нам все еще не удалось привнести практики DevOps в машинное обучение. Процесс создания и развертывания моделей ML частично раскрыт уже вышедшими MLOps решениями, однако им недостает поддержки со стороны одной из самых трудных сторон ML: со стороны данных.
Читать полностью »

Quartet 9: Allegro | Производительность

2020-03-29 в 9:38, admin, рубрики: data, javascript, quartet, quartet9allegro, validation, высокая производительность

Когда создавалась библиотека для валидации данных quartet были поставленны следующие цели-ориентиры:

TypeScript
Краткость
Простота
Производительность

В этой статье я хотел бы рассмотреть производительность quartet и её причины.

Будем исследовать этот аспект в сравнении между quartet и другой намного более популярной ajv.

Читать полностью »

Коллектив из бывших инженеров АНБ США и Amazon создает «GitHub для данных»

2020-02-21 в 14:08, admin, рубрики: Alconost, big data, data, github, алконост, Блог компании Alconost, гитхаб, данные

Около полугода назад у нескольких инженеров и разработчиков с опытом работы в Агентстве национальной безопасности США, Google и Amazon Web Services появилась любопытная идея.

Для создания новых функций и изобретения чего-то нового разработчикам и инженерам нужны данные. Но эти данные часто конфиденциальны и недоступны — из-за бюрократии и разного рода нормативных требований, — и чтобы получить одобрение на их использование, может понадобиться несколько недель. Поэтому недавно был запущен проект Gretel — стартап, цель которого — помочь разработчикам безопасно обмениваться конфиденциальными данными и совместно взаимодействовать с ними в режиме реального времени.

Алекс Уотсон, один из сооснователей проекта, говорит о предназначении новой платформы так: «Это не такая нишевая задача, как может показаться. Разработчики любой компании могут столкнуться с этой проблемой». Зачастую разработчикам нужен не полный доступ к банку пользовательских данных, а лишь фрагмент или выборка для работы. Во многих случаях достаточно будет данных, которые просто выглядят как реальные пользовательские данные.

Читать полностью »

Data Mesh: как работать с данными без монолита

2019-11-13 в 15:37, admin, рубрики: big data, data, data lake, data mesh, DDD, Dodo Pizza Engineering, domain-driven design, Блог компании Dodo Pizza Engineering, данные, хранение данных

Привет! Мы в Dodo Pizza Engineering очень любим данные (а кто их сейчас не любит?). Сейчас будет история о том, как накопить все данные мира Dodo Pizza и дать любому сотруднику компании удобный доступ к этому массиву данных. Задача под звёздочкой: сохранить нервы команды Data Engineering.

Data Mesh: как работать с данными без монолита - 1 Читать полностью »

Огромный открытый датасет русской речи версия 1.0

2019-11-05 в 7:28, admin, рубрики: annotated speech, asr, automatic speech recognition, data, open datasets, open source, speech corpus, speech recognition, STT, звук, машинное обучение, открытые данные

В начале этого года по ряду причин мы загорелись идеей создать самый большой открытый датасет русской речи. Подробнее о нашей мотивации и о том, как всё начиналось,
можно прочитать в этой статье — Огромный открытый датасет русской речи. С тех пор наш проект прошел через ряд масштабных изменений, мы в три раза увеличили количество данных, повысили их качество, добавили лейблы для спикеров и сейчас мы наконец готовы представить вам версию 1.0.

Также мы не готовы останавливаться на достигнутом и планируем продолжать делать интесивную работу над ошибками в последующих версиях и улучшать качество уже опубликованных данных. Версию 1.1 мы планируем посвятить масштабной работе над ошибками.

Читать полностью »

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «data»

Покупка гаража как инвестиция

Сборка мусора в неисправных JVM, проактивный подход

Кратко об OData

Содержание

Apache NiFi: как решить ошибки, которые не гуглятся

К порядку: правила создания конвейеров обработки данных

Почему нам нужен DevOps в сфере ML-данных

Quartet 9: Allegro | Производительность

Коллектив из бывших инженеров АНБ США и Amazon создает «GitHub для данных»

Data Mesh: как работать с данными без монолита

Огромный открытый датасет русской речи версия 1.0

Архив

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «data»

Содержание

Новости

Актуальные темы

Архив