В начале декабря я совершил роковую ошибку принял поворотное решение в своей жизни разработчика и перешёл в команду Data Engineering (DE) внутри компании. В статье я поделюсь некоторыми наблюдениями, которые я сделал за два месяца работы в команде DE.
Рубрика «data engineering» - 9
Data Engineer or die: история одного разработчика
2020-02-18 в 15:48, admin, рубрики: communities, data engineering, de, Dodo IS, Dodo Pizza Engineering, Блог компании Dodo Pizza Engineering, Карьера в IT-индустрии, конференции, ПрограммированиеNull проблема в Data Science и Machine Learning
2020-02-17 в 2:40, admin, рубрики: data engineering, data science, machine learning, NaN, natural language processing, None, null, Алгоритмы, машинное обучение, СемантикаСуществующее определение Null в Data Science сильно ограничено. Приложив немножко усилий? мы значительно улучшим обработку данных, ранее попадаемых в Null.
«Да, они существуют!» Чем занимаются и сколько зарабатывают Data Science-специалисты в Казахстане?
2020-02-10 в 14:06, admin, рубрики: big data, data engineering, data science, kolesa group, machine learning, зарплаты, исследование, Казахстан, Карьера в IT-индустрииДмитрий Казаков, Data Analytics Team Lead в Kolesa Group, делится инсайтами из первого казахстанского опроса специалистов по работе с данными.

На фото: Дмитрий Казаков
Помните популярную фразу о том, что Big Data больше всего напоминает подростковый секс – все о нем говорят, но никто не знает, есть ли он на самом деле. То же самое можно было сказать и о рынке специалистов по работе с данными (в Казахстане) – хайп есть, а кто за ним стоит (и есть ли там вообще хоть кто-то), не было до конца понятно – ни эйчарам, ни менеджерам, ни самим дата-сайентистам.
Мы провели исследование, в рамках которого опросили более 300 специалистов об их зарплатах, функциях, скиллах, инструментах и много еще о чем.
Спойлер: да, они точно существуют, но все не так однозначно.
Приятный инсайт. Во-первых, специалистов по работе с данными больше чем мы ожидали. Нам удалось опросить 300 человек, среди которых есть не только product-, marketing- и BI-аналитики, но и ML-, DWH-инженеры, что особенно порадовало. В самой большой группе оказались все те, кто называет себя дата-сайентистами – это 36% опрошенных. Покрывает это запрос рынка или нет, сказать сложно, потому что сам рынок только формируется. Читать полностью »
Delta: Платформа синхронизации данных и обогащения
2020-02-07 в 15:41, admin, рубрики: big data, Change Data Capture, data engineering, Data Synchronization, Event Driven Systems, stream processing, Блог компании OTUS. Онлайн-образованиеВ преддверии запуска нового потока по курсу «Data Engineer» подготовили перевод интересного материала.
Обзор
Мы поговорим о достаточно популярном паттерне, с помощью которого приложения используют несколько хранилищ данных, где каждое хранилище используется под свои цели, например, для хранения канонической формы данных (MySQL и т.д.), обеспечения расширенных возможностей поиска (ElasticSearch и т.д.), кэширования (Memcached и т.д.) и других. Обычно при использовании нескольких хранилищ данных одно из них работает как основное хранилище, а другие как производные хранилища. Единственная проблема заключается в том, как синхронизировать эти хранилища данных.
Мы рассмотрели ряд различных паттернов, которые пытались решить проблему синхронизации нескольких хранилищ, таких как двойная запись, распределенные транзакции и т.д. Однако эти подходы имеют существенные ограничения в плане использования в реальной жизни, надежности и технического обслуживания. Помимо синхронизации данных, некоторым приложениям также необходимо обогащать данные, вызывая внешние сервисы.Читать полностью »
[кейс Locomizer] Какие знания можно на самом деле извлечь из анонимизированного датасета с координатами пользователей
2020-01-25 в 20:11, admin, рубрики: assisted gps, big data, data engineering, gis, gps, location based services, POI, point of interest, Алгоритмы, бизнес-кейс, большой брат следит за тобой, Геоинформационные сервисы, Глобальные системы позиционирования, информационная безопасность, кейс по проекту, ликбез, приватность это миф, эвристические алгоритмыДанная статья является частью серии «Кейс Locomizer», см. также
• Как мы за два года ускорили расчёт тепловой карты в 20000 раз (послезавтра)
• Открываем One Ring — инструментарий для гибкой конфигурации сложных процессов обработки данных на Spark в облаке (скоро)
Здравствуйте.
Недавно издание The New York Times опубликовало претендующую на сенсационность статью о том, как отследить пользователей по коммерчески доступным анонимизированным датасетам с координатами их перемещений, и здесь, на Хабре её вольный перевод с дополнениями от неизвестного корпоративного копирайтера собрал большое количество комментариев разной степени обеспокоенности.
Так получилось, что я последние два с половиной года являюсь техническим лидом на геоинформационном проекте, который занимается задачей непосредственного извлечения знаний именно из таких коммерческих датасетов. Но мои комментарии с просьбой отставить панику собрали большое количество минусов. Что ж. В поговорке про отсутствие паранойи и не факт, что за вами не следят, есть некая доля истины.
Но есть и доля истины по ту сторону чёрного зеркала, возможно, куда большая. Или интересная.
Читать полностью »
Разбор настройки ELK 7.5 для анализа логов Mikrotik
2019-12-23 в 8:26, admin, рубрики: data engineering, docker, elasticsearch, home server, kibana, logstash, mikrotik, визуализация данных, Сетевые технологии, системное администрированиеДавно была мысль посмотреть, что можно делать с ELK и подручными источниками логов и статистики. На страницах хабра планирую показать практический пример, как с помощью домашнего мини-сервера можно сделать, например, honeypot с системой анализа логов на основе ELK стека. В этой статье расскажу про простейший пример анализа логов firewall с помощью стека ELK. В дальнейшем хотелось бы описать настройку окружения для анализа Netflow трафика и pcap дампов инструментом Zeek.

Если у вас есть публичный IP-адрес и более-менее умное устройство в качестве шлюза/файрволла, вы можете организовать пассивный honeypot, настроив логирование входящих запросов на «вкусные» TCP и UDP порты. Под катом пример настройки маршрутизатора Mikrotik, но если у вас под рукой маршрутизатор другого вендора (или какая-то ещё security система), нужно просто немного разобраться с форматами данных и вендоро-специфичными настройками, и получится тот же результат.
Disclaimer
Статья не претендует на оригинальность, здесь не рассматриваются вопросы отказоустойчивости сервисов, безопасности, лучших практик и т.д. Нужно рассматривать этот материал как академический, он подходит для ознакомления с базовым функционалом стека ELK и механизмом анализа логов сетевого устройства. Однако и не новичку может быть что-то интересно.
Проект запускается из docker-compose файла, соответственно развернуть своё подобное окружение очень просто, даже если у вас под рукой маршрутизатор другого вендора, нужно просто немного разобраться с форматами данных и вендоро-специфичными настройками. В остальном я постарался максимально подробно описать все нюансы, связанные с конфигурированием Logstash pipelines и Elasticsearch mappings в актуальной версии ELK. Все компоненты этой системы хостятся на github, в том числе конфиги сервисов. В конце статьи я сделаю раздел Troubleshooting, в котором будут описаны шаги по диагностике популярных проблем новичков в этом деле.
Читать полностью »
Шесть навыков, которые выведут вашу карьеру в Data Science на новый уровень
2019-08-26 в 14:38, admin, рубрики: big data, data engineering, data mining, data science, mashine learning, Блог компании Plarium, Карьера в IT-индустрии, карьера в ИТ, машинное обучение, навыки и умения, прокачка, статистическое моделированиеПеред вами перевод статьи Genevieve Hayes, Data Scientist с 15-летним опытом работы. Автор рассказывает о том, какие навыки стоит развивать, чтобы значительно увеличить шансы найти работу в Data Science. Чтобы определить эти навыки, она проанализировала 100 вакансий, размещенных работодателями из Австралии, Канады, Великобритании и США.
1.1 миллиард поездок на такси: 108-ядерный кластер ClickHouse
2019-08-14 в 12:23, admin, рубрики: big data, clickhouse, data engineering, Администрирование баз данных, базы данных, Блог компании OTUS. Онлайн-образованиеПеревод статьи подготовлен специально для студентов курса «Data Engineer».
ClickHouse — это колоночная база данных с открытым исходным кодом. Это великолепная среда, где сотни аналитиков могут быстро запрашивать развернутые данные, даже когда вводятся десятки миллиардов новых записей в день. Расходы на инфраструктуру для поддержки такой системы могут достигать 100 тыс. долларов США в год, и потенциально вдвое меньше, в зависимости от использования. В какой-то момент инсталяция ClickHouse от Яндекс Метрики содержала 10 триллионов записей. Помимо Яндекса, ClickHouse также снискала успех у Bloomberg и Cloudflare.Читать полностью »
Student Talks: Аналитика. Материалы для начинающих
2019-05-08 в 12:26, admin, рубрики: data engineering, data science, аналитика, веб-аналитика, Карьера в IT-индустрии, митап, модерация, продуктовая аналитика, студенты, Учебный процесс в IT25 апреля мы провели очередной митап Avito Student Talks, в этот раз он был посвящён аналитике: карьерному пути, Data Science и продуктовой аналитике. После встречи мы подумали, что её материалы могут быть интересны самой широкой аудитории и решили ими поделиться. В посте — видеозаписи докладов, презентации от спикеров, отзывы слушателей и, конечно, фотоотчёт.

Стажировки для разработчиков в Авито: боевые задачи и работа с опытными наставниками
2019-02-28 в 12:46, admin, рубрики: avitotech, backend, data engineering, dba, информационная безопасность, Карьера в IT-индустрии, Программирование, стажировка, стажировка в avito, стажировка в it, Учебный процесс в ITПочему работа в боевых проектах высоконагруженной разработки для новичка зачастую лучше короткой летней практики? Почему личный контакт с наставником — залог успешного входа в профессию? И какие они, стажировки для начинающих разработчиков в Авито? В этой статье я отвечаю на все эти вопросы, рассказываю о впечатлениях наставников и стажёров и анонсирую новые стажёрские вакансии в Авито.




