Приглашаем вас посмотреть прямую трансляцию Connect(); 2017, которая будет проходить на русском языке. В рамках неё Скотт Гатри и Скотт Хансельман представят самые крутые новости про Azure, Data, AI, DevOps, Visual Studio, Xamarin, и не только. Плеер можно найти под катом.
Рубрика «data» - 4
Connect(); 2017: прямая трансляция
2017-11-15 в 15:11, admin, рубрики: AI, azure, Connect(); 2017, data, devops, Microsoft Azure, Microsoft Connect 2017, Visual Studio, xamarin, Блог компании MicrosoftAirflow — инструмент, чтобы удобно и быстро разрабатывать и поддерживать batch-процессы обработки данных
2017-10-06 в 13:11, admin, рубрики: airflow, analytics, big data, data, datawarehouse, elt, etl, Hadoop, Hive, open source, python, spark, sql, Блог компании Mail.Ru Group
Привет! В этой статье я хочу рассказать об одном замечательном инструменте для разработки batch-процессов обработки данных, например, в инфраструктуре корпоративного DWH или вашего DataLake. Речь пойдет об Apache Airflow (далее Airflow). Он несправедливо обделен вниманием на Хабре, и в основной части я попытаюсь убедить вас в том, что как минимум на Airflow стоит смотреть при выборе планировщика для ваших ETL/ELT-процессов.
Ранее я писал серию статей на тему DWH, когда работал в Тинькофф Банке. Теперь я стал частью команды Mail.Ru Group и занимаюсь развитием платформы для анализа данных на игровом направлении. Собственно, по мере появления новостей и интересных решений мы с командой будем рассказывать тут о нашей платформе для аналитики данных.
Восхождение дата-инженера
2017-02-02 в 11:30, admin, рубрики: data, SaaS, Администрирование баз данных, бд, Блог компании Inoventica Services, дата-инженер, инструментарий, инструменты, обработка данных, перевод, разработка, Сетевые технологии, СУБД, хранение данных, хранилища данных
Я присоединился к команде Facebook в 2011 году в качестве инженера бизнес-аналитика. К моменту, когда я покинул команду в 2013 году я уже был дата-инженером.
Меня не продвигали или назначали на эту новую позицию. Фактически, Facebook пришла к выводу, что выполняемая нами работа является классической бизнес-аналитикой. Роль, которую в итоге мы для себя создали, была полностью новой дисциплиной, а я и моя команда находились на острие этой трансформации. Мы разрабатывали новые подходы, способы решения задач и инструменты. При этом, чаще всего, мы игнорировали традиционные методы. Мы были пионерами. Мы были дата-инженерами!
Дата-инжиниринг?
Наука о данных как самостоятельная дисциплина переживает период отроческого самоутверждения и определения себя. В тоже время дата-инжиниринг можно было назвать ее «младшим братом», который тоже проходил через нечто подобное. Дата-инжиниринг принимал от своего «старшего родственника» сигналы, искал свое место и собственную идентичность. Как и ученые, занимающиеся обработкой данных, дата-инженеры тоже пишут код. Он является высокоаналитическим, с большой долей визуализации.
Но в отличие от ученых, работающих с данными и вдохновленными более зрелым прародителем сферы — программированием — дата-инженеры создают собственные инструменты, инфраструктуру, фреймворки и сервисы. На самом деле, мы намного ближе к программированию, чем к науке о данных.
Читать полностью »
Генерация фиктивных данных с Elizabeth
2016-12-21 в 10:27, admin, рубрики: data, django, dummy, fake, flask, python
Elizabeth — это библиотека для языка программирования Python, которая помогает генерировать фиктивные данные. Один из простейших примеров использования библиотеки — это заполнение баз данных для приложений на Flask или Django. На данный момент библиотека поддерживает 16 языковых стандартов и 18 классов-провайдеров, предоставляющих разного рода данные.
Возможность генерировать фиктивные, но в то же время валидные данные бывает очень полезна при разработке приложений, которые подразумевают работу с базой данных. Ручное заполнение базы данных представляется довольно-таки сложным и изнурительным процессом, но по-настоящему все усложняется в тот момент, когда требуется сгенерировать не 10-15 пользователей, а 100-150 тысяч. В этой статье я постараюсь обратить ваше внимание на инструмент, который в разы упрощает процесс начальной загрузки базы данных на этапе тестирования.
Big Data головного мозга
2016-06-22 в 6:07, admin, рубрики: big data, data, greenplum, hawq, teradata, VerticaНаверно, в мире данных нет подобного феномена настолько неоднозначного понимания того, что же такое Hadoop. Ни один подобный продукт не окутан таким большим количеством мифов, легенд, а главное непонимания со стороны пользователей. Не менее загадочным и противоречивым является термин "Big Data", который иногда хочется писать желтым шрифтом(спасибо маркетологам), а произносить с особым пафосом. Об этих двух понятиях — Hadoop и Big Data я бы хотел поделиться с сообществом, а возможно и развести небольшой холивар.
Возможно статья кого-то обидит, кого-то улыбнет, но я надеюсь, что не оставит никого равнодушным.

Демонстрация Hadoop пользователям
Moscow Python Meetup №32
2016-02-04 в 12:19, admin, рубрики: aiohttp, algorithms, Conference, data, ipython, jupyter, meetup, moscow, pythonПервая встреча MoscowPython 2016-го года состоится в гостях у компании Rambler&Co 9-го февраля.
Отправляемся в «Дата-центр»
2016-01-23 в 10:41, admin, рубрики: data, data centre, оптимизация затрат, управление проектами, метки: data centre 
В сторону Хостинг провайдера Российский бизнес (не только интернет компании) начали заглядываться где-то с 2012 года. В чём же популярность решений? Очень просто, это цена. Действительно, при открытии нового бизнеса не стоит думать про строительство частного ЦОД, тем более про закупку сверх мощностей. Если Ваш проект стартап и в штате предусмотрен один системный администратор, на худой конец в паре с программистом 1С, то собственный ЦОД Вам точно не нужен. Деньги можно потратить на более необходимые вещи.
Читать полностью »
Buffalo TeraStation 5000 — обновление линейки офисных NAS
2012-06-28 в 6:58, admin, рубрики: atom, buffalo technology, data, hdd, NAS, storage, terastation, Блог компании Buffalo Technology, метки: atom, buffalo technology, data, hdd, NAS, news, storage, terastationЭтим летом компания Buffalo приготовила обновление офисноориентированной линейки NAS TeraStation. Результатом нововведений стали 2 новые модели уже зарекомендовавшего себя обновленного устройства – TeraStation 5400 (2 HDD) и TeraStation 5200 (4 HDD).
Обновление линейки Buffalo TeraStation было впервые анонсировано в марте 2012 года в рамках выставки CeBIT. В России новая модель была представлена широкой публике на апрельской выставке «Consumer Electronics and Photo Expo».
Подводим итоги конкурса блоггеров Buffalo
2012-06-03 в 8:05, admin, рубрики: Buffalo, buffalo technology, DAS, data, drive, NAS, portable, storage, terastation, Блог компании Buffalo Technology, метки: Buffalo, buffalo technology, DAS, data, drive, NAS, portable, storage, terastation Наш первый конкурс блоггеров завершен. Шестнадцать дней длилось голосование, позволившее определить тройку призеров, которым достанутся подарки от компании Buffalo.
Читать полностью »
Строим карту популярности дней рождения с помощью Processing и VK API
2012-05-25 в 14:16, admin, рубрики: api, data, processing, visualization, vk.com, визуализация, Вконтакте API, данные, Дизайн в IT, Инфографика, метки: api, data, Processing, visualization, vk.com, визуализация, данныеВступление
Несколько дней назад в блоге The Daily Viz была опубликована запись, которая привлекла внимание широкой общественности как пример простой и эффективной визуализации данных.
Визуализация представляла собой карту популярности дней рождения, реализованную как теплокарта (heatmap) в виде календаря. По вертикали располагались числа, по горизонтали — месяцы, и, глядя в эту незамысловатую таблицу, мы могли по насыщенности оттенка судить о том, насколько популярен тот или иной день в году с точки зрения деторождения.
Через какое-то время автор визуализации опубликовал в том же блоге второй пост, извинившись за то, что ввел сообщество в заблуждение, не прокомментировав должным образом исходные данные, использованные в работе над изображением. Проблема была в том, что исходный сет данных не содержал информации о реальном числе родившихся в тот или иной день людей. Информация была дана в другом виде — на каком месте (rank) находится тот или иной день в «рейтинге» популярности дней рождения.
То есть, разница между первой и второй позицией в рейтинге могла быть колоссальной (скажем, в два раза), но отличались бы они все равно только на один тон. Иными словами, визуализация не отражала реальных данных из-за того, что сет содержал лишь производные данные.
Немного подумав над этой проблемой, я решил описать собственный пример создания такой визуализации от начала до конца — т. е. от сбора данных до, собственно, отрисовки изображения. Этот пример хорош тем, что он, с одной стороны, относительно прост, а с другой — является целостным завершенным проектом с определенным интересным результатом.Читать полностью »


