Рубрика «big data»

Любопытные и неочевидные особенности при работе со Snowflake - 1

Без долгих вступлений, сразу к делу.

Знаете ли вы, что в Snowflake можно создавать объекты с пустыми именами? Например:

CREATE DATABASE "";
CREATE SCHEMA ""."";
CREATE TABLE ""."".""("" NUMBER);

Читать полностью »

Монетизация данных. Зачем Большой Брат следит за нами? - 1

2021-й год стал первым годом, когда крупные компании начали понимать на практике, зачем же они следят за пользователями. До этого бигдата была инструментом поиска вещей, которые можно было сделать и статичными правилами, а вот сейчас наконец-то стала полезной принципиально иначе.

Теперь можно получать обработку информации в реальном времени (и реагировать гибко и сразу на те же действия на сайте или в приложении), в агрегации данных (теперь банк знает, где вы живёте, какие у вас были диагнозы по чекам из аптеки и какие интернет-магазины вы предпочитаете по адресам посещаемых сайтов, от стратегического альянса с провайдером или сотовым оператором) и так далее.
Читать полностью »

Встречайте UUID нового поколения для ключей высоконагруженных систем - 1

31 марта 2022 года на сайте IETF был официально размещен текст рабочего документа (копия 1Читать полностью »

Привет! Меня зовут Григорий Коваль, я технический руководитель Core Data Lake центра Big Data МТС. Сегодня я расскажу о том, какие слои находятся внутри Data Lake, как построить архитектуру базы данных и чем распределенный Data Mesh-подход отличается от монолитного хранения данных.

Что в глубинах Data Lake? Строим архитектуру, укладываем слои, распределяем ответственность - 1

Для создания Data Lake нужен итерационный подход – agile и все, что с этим связано. Еще необходимо правильно организовать работу команд, синхронизировать их распределить ответственность между участниками. Тогда получится прямая связь между пользователями и людьми, которые развивают витрины данных или домены. В этой статье поговорим о задачах, архитектуре и проблемах развития Data lake, а также обсудим способы решения возникающих проблем, специфику процессов и перспективы развития. Читать полностью »

X5 Tech приглашает студентов и выпускников вузов пройти бесплатное обучение по профессии Data Analyst. Уже через три месяца обучения можно будет пройти оплачиваемую стажировку в Х5 Group.

Школа аналитиков данных - 1
  • Начало отбора — 21 февраля.

  • Старт обучения — 29 марта.

  • Срок обучения — 8 месяцев, вторник и четверг в 19:00.

Подробности и подача заявки

Программа обучения

  1. Читать полностью »

МНОГАБУКАВ.

Знакомство

Всем привет! Расскажу про нашу разработку, которая изменит подход к обработке данных.

Мы разработали новый математический алгоритм обработки данных и программный продукт на его базе (кодек), позволяющий работать со сжатием битовых потоков любого формата (статические/динамические) – то есть, кодек позволяет проводить более глубокое сжатие уже существующих файлов (видео, изображения, архивы и т.д.), так и осуществлять сжатие исходных «сырых» данных.

Читать полностью »

ЕГРЮЛ, доходы и расходы, налоги, количество сотрудников в XML и JSON бесплатно
ЕГРЮЛ, доходы и расходы, налоги, количество сотрудников в XML и JSON бесплатно

Налоговая отдаёт данные ЕГРЮЛ  по организации в виде PDF. Посредники за автоматический доступ по API хотят денег. На многих сайтах часть данных закрыто, часть функций недоступны бесплатно, и полно рекламы. 

Читать полностью »

Всем привет! Эта статья - обобщение моего опыта 30+ проектов, связанных с обработкой данных и машинным обучением. Здесь не будет теории про управление рисками и общего перечня проектных рисков. Я перечислил только наиболее частые “грабли” именно из data-специфики, с которыми приходилось сталкиваться за последние 7 лет. Надеюсь, что эта статья поможет менеджеру проекта или менеджеру продукта сохранить свой цвет волос, ценное время команды и удовлетворенность заказчиков. Риски я разделил на три группы:

  • риски моделей машинного обучения,

  • риски источников данных,

  • риски пользовательских данных.

Читать полностью »

Поймал себя на ощущении, что очень хочется поделиться своим опытом работы с интеловской энергонезависимой памятью (Intel Optane memory или Intel PMem = persistent memory). Я буду для краткости называть ее ПМем. Думаю, что несмотря на объем продаж в сотни миллионов долларов, пока мало кто с ней сталкивался и знает ее специфику. Я же по долгу службы занимаюсь ей уже довольно продолжительное время и гонял на ней различные приложения и микро-бенчмарки. А также добивался ее эффективного использования модифицируя под нее клиентские коды.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js