Рубрика «big data»

Steam — одна из крупнейших платформ цифровой дистрибуции игр, и одновременно огромный источник данных: каталоги игр, отзывы, достижения, ценовые метрики, активность игроков, региональные различия и многое другое. Однако прямого доступа к агрегированным данным у исследователей нет — их необходимо собирать вручную через Steam Web API и сторонние сервисы.

В этом проекте мы разработали полноценный программный комплекс для автоматизированного сбора, хранения и анализа данных SteamЧитать полностью »

Привет!

Потоки данных между системами стабильно увеличиваются, и в обозримом будущем эта тенденция вряд ли изменится, что создает постоянную потребность в инструментах для работы с данными.

Apache NiFi — программный продукт с открытым исходным кодом, написанный на языке Java, предназначенный для автоматизации потоков данных между системами. Главная его задача: организовывать ETL‑процессы. На GitHub у Apache NiFi имеется 5.9 тысяч звезд.

Для тех, кто не знает, что такое Apache NiFi советую прочитать отличную статью.

Читать полностью »

У вас дома есть умная розетка? Или датчик протечки воды под раковиной? Если есть — вы уже знаете, что такое интернет вещей. Небольшой девайс висит на стене, следит за температурой или влажностью, а когда что-то идёт не так — шлет уведомление на смартфон.

Теперь представьте то же самое, но не в квартире, а на нефтехимическом заводе площадью в несколько квадратных километров. Там не десять розеток, а тысячи труб, насосов, реакторов. И за каждым нужно следить. Именно для этого и придумали промышленный интернет вещей — IIoT.

Читать полностью »

У вас дома есть умная розетка? Или датчик протечки воды под раковиной? Если есть — вы уже знаете, что такое интернет вещей. Небольшой девайс висит на стене, следит за температурой или влажностью, а когда что-то идёт не так — шлет уведомление на смартфон.

Теперь представьте то же самое, но не в квартире, а на нефтехимическом заводе площадью в несколько квадратных километров. Там не десять розеток, а тысячи труб, насосов, реакторов. И за каждым нужно следить. Именно для этого и придумали промышленный интернет вещей — IIoT.

Читать полностью »

У вас дома есть умная розетка? Или датчик протечки воды под раковиной? Если есть — вы уже знаете, что такое интернет вещей. Небольшой девайс висит на стене, следит за температурой или влажностью, а когда что-то идёт не так — шлет уведомление на смартфон.

Теперь представьте то же самое, но не в квартире, а на нефтехимическом заводе площадью в несколько квадратных километров. Там не десять розеток, а тысячи труб, насосов, реакторов. И за каждым нужно следить. Именно для этого и придумали промышленный интернет вещей — IIoT.

Читать полностью »

Каждый день одно и то же. Открываешь клиент базы данных, чтобы что-то проверить, посчитать или найти. И снова пишешь почти тот же SELECT, что и вчера, с тем же WHERE и JOIN. Знакомо?

SQL в большинстве случаях не требует сложные 100-строчные запросы с вложенными подзапросами на три уровня глубины. Чаще всего нам нужны простые, отточенные и, главное, эффективные конструкции.

В этой статье я собрал 7 таких запросов-«рабочих лошадок». Это не какой-то там справочник, а готовая шпаргалка для реальных задач.

Прежде чем перейти к запросам, запомните главное правило любого UPDATE или DELETEЧитать полностью »

Аналитика в ритейле всегда была непростой задачей. Чем больше точек продаж и каналов, тем сложнее бизнесу ориентироваться в данных. Отчеты из ERP, CRM, e-com площадок, маркетинговых платформ и POS-систем часто сводятся вручную, BI-отделы перегружены, а бизнес-пользователи ждут ответа на свои вопросы неделями.

При этом если запрос бизнеса не приоритетный, то в бэклоге команды разработки он может висеть месяцами – сталкивался с подобным неоднократно. (А как у вас? Напишите, интересно как с этим обстоят дела сейчас)

Читать полностью »

Историиуспеха часто подаются слишком гладко. Но за каждым «сегодня я работаю в Data Science» всегда стоит длинный и запутанный маршрут.

Я хочу поделиться своей дорогой — не как учебником, а как историей, которая, возможно, поможет тем, кто сейчас только ищет направление или сомневается, стоит ли идти в аналитику, инженерию или AI.

Начало: школьный выбор и первая любовь к системам

Моя отправная точка — школа. Учился я в физико‑математическом классе, где нас приучали к структурному мышлению и логике. Это был мой первый контакт с идеей, что за любым хаосом всегда можно найти систему.

Читать полностью »

В русскоязычной части интернета присутствует много статей по теме паттернов разработки, однако я не нашел никакой информации о паттернах работы с данными.

В данной статье я хочу рассказать о паттерне Write-Audit-Publish, о предпосылках его появления, а также наглядно рассмотреть как он работает.

История зарождения

С момента появления концепции data lake, компании старались собирать как можно данных, иногда не слишком задумываясь об их качестве. Появилось четкое понимание, что данные "когда-нибудь" могут быть использованы. Так, согласно исследованиям market.usЧитать полностью »

Всем привет! Для начала давайте разберем что такое вообще Алгоритмы для работы с большими данными, основная суть алгоритмов для работы с большими данными  — это эффективная обработка огромных объёмов информации при минимальных вычислительных ресурсах (памяти, CPU, диске). Их суть — жертвовать точностью ради скорости и масштабируемости. Примеры:

  • Потоковая обработка

  • Распределённые системы (агрегация на многих узлах).

  • Реал‑тайм аналитика (быстрые ответы на лету).

Главные алгоритмы и их суть

Алгоритм

Что решает?

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js