Рубрика «data» - 3

image

Я присоединился к команде Facebook в 2011 году в качестве инженера бизнес-аналитика. К моменту, когда я покинул команду в 2013 году я уже был дата-инженером.

Меня не продвигали или назначали на эту новую позицию. Фактически, Facebook пришла к выводу, что выполняемая нами работа является классической бизнес-аналитикой. Роль, которую в итоге мы для себя создали, была полностью новой дисциплиной, а я и моя команда находились на острие этой трансформации. Мы разрабатывали новые подходы, способы решения задач и инструменты. При этом, чаще всего, мы игнорировали традиционные методы. Мы были пионерами. Мы были дата-инженерами!

Дата-инжиниринг?

Наука о данных как самостоятельная дисциплина переживает период отроческого самоутверждения и определения себя. В тоже время дата-инжиниринг можно было назвать ее «младшим братом», который тоже проходил через нечто подобное. Дата-инжиниринг принимал от своего «старшего родственника» сигналы, искал свое место и собственную идентичность. Как и ученые, занимающиеся обработкой данных, дата-инженеры тоже пишут код. Он является высокоаналитическим, с большой долей визуализации.

Но в отличие от ученых, работающих с данными и вдохновленными более зрелым прародителем сферы — программированием — дата-инженеры создают собственные инструменты, инфраструктуру, фреймворки и сервисы. На самом деле, мы намного ближе к программированию, чем к науке о данных.
Читать полностью »

Генерация фиктивных данных с Elizabeth - 1

Elizabeth — это библиотека для языка программирования Python, которая помогает генерировать фиктивные данные. Один из простейших примеров использования библиотеки — это заполнение баз данных для приложений на Flask или Django. На данный момент библиотека поддерживает 16 языковых стандартов и 18 классов-провайдеров, предоставляющих разного рода данные.

Возможность генерировать фиктивные, но в то же время валидные данные бывает очень полезна при разработке приложений, которые подразумевают работу с базой данных. Ручное заполнение базы данных представляется довольно-таки сложным и изнурительным процессом, но по-настоящему все усложняется в тот момент, когда требуется сгенерировать не 10-15 пользователей, а 100-150 тысяч. В этой статье я постараюсь обратить ваше внимание на инструмент, который в разы упрощает процесс начальной загрузки базы данных на этапе тестирования.

Читать полностью »

Наверно, в мире данных нет подобного феномена настолько неоднозначного понимания того, что же такое Hadoop. Ни один подобный продукт не окутан таким большим количеством мифов, легенд, а главное непонимания со стороны пользователей. Не менее загадочным и противоречивым является термин "Big Data", который иногда хочется писать желтым шрифтом(спасибо маркетологам), а произносить с особым пафосом. Об этих двух понятиях — Hadoop и Big Data я бы хотел поделиться с сообществом, а возможно и развести небольшой холивар.
Возможно статья кого-то обидит, кого-то улыбнет, но я надеюсь, что не оставит никого равнодушным.

image
Демонстрация Hadoop пользователям

Читать полностью »

Первая встреча MoscowPython 2016-го года состоится в гостях у компании Rambler&Co 9-го февраля.

image
Читать полностью »

image
В сторону Хостинг провайдера Российский бизнес (не только интернет компании) начали заглядываться где-то с 2012 года. В чём же популярность решений? Очень просто, это цена. Действительно, при открытии нового бизнеса не стоит думать про строительство частного ЦОД, тем более про закупку сверх мощностей. Если Ваш проект стартап и в штате предусмотрен один системный администратор, на худой конец в паре с программистом 1С, то собственный ЦОД Вам точно не нужен. Деньги можно потратить на более необходимые вещи.
Читать полностью »

Этим летом компания Buffalo приготовила обновление офисноориентированной линейки NAS TeraStation. Результатом нововведений стали 2 новые модели уже зарекомендовавшего себя обновленного устройства – TeraStation 5400 (2 HDD) и TeraStation 5200 (4 HDD).

Обновление линейки Buffalo TeraStation было впервые анонсировано в марте 2012 года в рамках выставки CeBIT. В России новая модель была представлена широкой публике на апрельской выставке «Consumer Electronics and Photo Expo».

Читать полностью »

Наш первый конкурс блоггеров завершен. Шестнадцать дней длилось голосование, позволившее определить тройку призеров, которым достанутся подарки от компании Buffalo.
Читать полностью »

Вступление

Несколько дней назад в блоге The Daily Viz была опубликована запись, которая привлекла внимание широкой общественности как пример простой и эффективной визуализации данных.

Визуализация представляла собой карту популярности дней рождения, реализованную как теплокарта (heatmap) в виде календаря. По вертикали располагались числа, по горизонтали — месяцы, и, глядя в эту незамысловатую таблицу, мы могли по насыщенности оттенка судить о том, насколько популярен тот или иной день в году с точки зрения деторождения.

Через какое-то время автор визуализации опубликовал в том же блоге второй пост, извинившись за то, что ввел сообщество в заблуждение, не прокомментировав должным образом исходные данные, использованные в работе над изображением. Проблема была в том, что исходный сет данных не содержал информации о реальном числе родившихся в тот или иной день людей. Информация была дана в другом виде — на каком месте (rank) находится тот или иной день в «рейтинге» популярности дней рождения.

То есть, разница между первой и второй позицией в рейтинге могла быть колоссальной (скажем, в два раза), но отличались бы они все равно только на один тон. Иными словами, визуализация не отражала реальных данных из-за того, что сет содержал лишь производные данные.

Немного подумав над этой проблемой, я решил описать собственный пример создания такой визуализации от начала до конца — т. е. от сбора данных до, собственно, отрисовки изображения. Этот пример хорош тем, что он, с одной стороны, относительно прост, а с другой — является целостным завершенным проектом с определенным интересным результатом.Читать полностью »

NAS – это network attached storage. А говоря простым русским языком, файловое хранилище, обеспеченное выходом в сеть.

Целью данного поста не ставится разъяснение сути NAS Хабрасообществу, т.к. большинство из здесь присутствующих уже не первый год знакомы с подобным оборудованием, а некоторые вполне способны собрать и настроить подобные устройства самостоятельно. Главная задача – формулировка простых, доступных любому потребителю определений, позволяющих не только описать NAS, как таковой, но и донести полезность подобного прибора для каждого дома, где используется больше одного устройства с операционной системой.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js