Рубрика «data engineering» - 3

Как небольшой команде переехать на ClickHouse: на какие грабли мы наступили и о каких фишках не знали

2024-08-26 в 5:57, admin, рубрики: clickhouse, data engineering, open source, sql, базы данных

Привет!

Меня зовут Петр. Я работаю инженером по данным в Okko и обожаю ClickHouse.

Примерно в середине прошлого года мы начали увлекательный процесс переезда хранилища с PostgreSQL (плюс частично HDFS) на ClickHouse. Причин для переезда было несколько, но одной из главных была низкая производительность — среднее время аналитического запроса составляло около минуты. Понятно, что запросы бывают не оптимальные. Но сейчас, после переезда, среднее время запроса в аналитическом кластере составляет около 2 с. И это не предел.

Читать полностью »

ClickHouse: полезные лайфхаки

2023-06-25 в 15:57, admin, рубрики: analytics, big data, BigData, clickhouse, data engineering, open source, opensourse, sql

Я начала пользоваться ClickHouse до того, как это стало мэйнстримом: первый раз я столкнулась c этой базой данных лет 8 назад. C тех пор я уверена, что это лучшая DB для аналитики. Большинство аналитиков, которых я знаю, в восторге от ClickHouse (иногда чтобы проникнуться, требуется немного времени: разобраться и привыкнуть к синтаксису). Однако, я не могу не отметить, что администрирование ClickHouse имеет свои нюансы и подводные камни, но это уже совсем другая история.

В этой статье я расскажу что такое ClickHouse и почему я считаю его идеально подходящим мощным инструментом для аналитики. А также поделюсь tips & tricks из моего опыта. Поехали.

Читать полностью »

Анализировать данные — это как варить пиво. Почему дата-анализ и пивоварение — одно и то же с техноизнанки

2023-06-23 в 7:53, admin, рубрики: big data, data engineering, data mining, анализ данных, Блог компании IT-guide, пивоварение

Три года я был эстонским пивоваром: придумывал рецепты и сам варил. Когда начал изучать Python, SQL и анализ данных, понял, что между подготовкой данных и подготовкой сусла много общего: оказывается, в цеху я занимался DS, но не подозревал об этом. Меня зовут Алексей Гаврилов, я сеньор дата-аналитик в ретейле. В этой статье расскажу, чем пивоварение и аналитика данных похожи изнутри.

Читать полностью »

Новые инструменты для работы c ML-моделями и обзор MLOps от CERN

2023-05-26 в 10:19, admin, рубрики: big data, data engineering, mlops, Блог компании Selectel, ит-инфраструктура, машинное обучение

Привет всем, кто работает с ML-моделями и занимается аналитикой данных! В новом дайджесте для вас много интересных обзоров по инструментам — как говорится, ни ClearML и Airflow едиными. Рынок решений стремительно развивается, и наши подборки помогут вам держать руку на пульсе. Еще больше полезных текстов по DataOps и MLOps публикуем в Telegram-сообществе «MLечный путь».

Как вам, кстати, ренессансная GPU на обложке, которую сгенерила нейросеть для блога Andreesen and Horowitz? Что тут сказать — просто поделитесь промтом.
Читать полностью »

Консолидация баз данных: этапы, методы и примеры

2023-05-02 в 9:00, admin, рубрики: data engineering, etl, ruvds_статьи, Администрирование баз данных, базы данных, Блог компании RUVDS.com, виртуализация данных, консолидация баз данных, хранение данных, хранилище данных

Сейчас во всём мире объёмы данных растут с невероятной скоростью, и чтобы эффективно использовать их потенциал, требуется правильное хранение и управление информацией. Одним из наиболее эффективных способов решения этой проблемы является консолидация баз данных. Но что это такое и как её правильно реализовать? В этой статье мы разберёмся, какую пользу может принести консолидация баз данных и как её провести на практике. Если вы хотите оптимизировать свою работу с данными, то эта статья для вас!Читать полностью »

Как упростить анализ данных? Запуск и сценарии использования готовой виртуальной машины для аналитики

2023-03-31 в 10:30, admin, рубрики: big data, data engineering, mlops, анализ данных, Блог компании Selectel, машинное обучение

Походы — вещь непредсказуемая. Обычно полезная нагрузка распределяется между всеми участниками, но всегда вмешивается элемент случайности или забывчивости. В таких ситуациях выручает швейцарский нож, который гарантирует, что минимальные потребности группы будут удовлетворены. С помощью такого ножа можно и консервы открыть, и бинт разрезать, но главное — он экономит место в рюкзаке.

Небольшой команде, которая работает с ML-моделями и анализом данных, тоже хочется иметь готовое решение базовых задач. Собирать его самостоятельно из отдельных компонентов не всегда удобно, а еще это бывает дорого. Вот бы существовало какое-то компактное решение, в котором сразу был бы весь набор инструментов и настроек. Что ж, усаживайтесь у костра поудобнее, пришло время рассказать про Data Analytics Virtual Machine (DAVM).
Читать полностью »

«Midjourney на коленке». Как развернуть нейросеть в облаке за 5 минут, или начало работы с Diffusers

2023-03-24 в 13:01, admin, рубрики: dalle, data engineering, data science, jupiter, machine learning, midjourney, selectel, stable diffusion, Блог компании Selectel, будущее здесь, искусственный интеллект, машинное обучение

Построить свою конвейерную ленту по разработке нейронок не так сложно. Нужен «всего лишь» сервер с GPU и настроенное окружение с библиотекой Diffusers. Если вам интересно, что это такое, как создать свою «Midjourney на коленке» и генерировать вайф в режиме 24/7, добро пожаловать под кат!
Читать полностью »

Полезные материалы по Data Science и машинному обучению, которые помогут пройти сквозь джунгли из терминов

2023-03-21 в 14:21, admin, рубрики: data engineering, data science, selectel, аналитика данных, Блог компании Selectel, искусственный интеллект, математика, машинное обучение, подборка

Привет! Меня зовут Ефим, я MLOps-инженер в Selectel. В прошлом был автоматизатором, ML-инженером, дата-аналитиком и дата-инженером — и уже несколько лет падаю в пропасть машинного обучения и Data Science. Это буквально необъятная сфера, в которой почти нет ориентиров. Основная проблема в том, что разделов математики довольно много и все они, на первый взгляд, нужны в том же машинном обучении.

В этой статье делюсь полезными материалами, которые помогут найти и заполнить теоретические и практические проблемы и основательно подойти к своему профессиональному развитию. Добро пожаловать под кат!
Читать полностью »

Большие данные мертвы. Это нужно принять

2023-03-02 в 14:02, admin, рубрики: big data, data engineering, firstvds, Google, базы данных, Блог компании FirstVDS, вычисления, Облачные вычисления, хранилища

Читать полностью »

Прощай, Data Science

2022-12-14 в 5:15, admin, рубрики: data engineering, data science, дата-инженер, Карьера в IT-индустрии, карьера ИТ-специалиста, математика

Это по большей мере личный пост, а не какое-то глубокое исследование. Если вам нужны какие-то выводы, то здесь вы их не найдёте. Откровенно говоря, я даже не знаю, кто его целевая аудитория (возможно «дата-саентисты, которые себя ненавидят»?).

Последние несколько лет я был дата-саентистом, но в 2022 году получил новую должность дата-инженера, и пока я ею вполне доволен.

Я по-прежнему работаю вместе с «дата-саентистами» и немного продолжаю заниматься этой сферой, но вся моя работа по «data science» заключается в руководстве и консультировании по чужой работе. Я в большей степени занимаюсь реализацией data science (MLOps) и дата-инжинирингом.

Основная причина разочарования в data science заключалась в том, что работа казалась несущественной, во многих смыслах этого слова «неважной»:

Работа — это непрекращающийся поток разработки, продукта и офисной политики, поэтому часто так бывает, что работа хороша настолько, насколько хорошо самое слабое звено в цепи.
Никто не знал, в чём заключается разница между плохой и хорошей работой в data science, да никого это и не волновало. Это значит, что вы можете быть абсолютным неудачником или гением в ней, но в любом случае получите примерно одинаковое признание.
Работа часто приносила очень малую пользу бизнесу (часто компенсируя некомпетентность выше по цепочке управления).
Когда польза от работы превышала затраты на оплату труда, часто это не давало внутренней отдачи (например, настройка параметра, чтобы бизнес зарабатывал больше денег).

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «data engineering» - 3

Как небольшой команде переехать на ClickHouse: на какие грабли мы наступили и о каких фишках не знали

ClickHouse: полезные лайфхаки

Анализировать данные — это как варить пиво. Почему дата-анализ и пивоварение — одно и то же с техноизнанки

Новые инструменты для работы c ML-моделями и обзор MLOps от CERN

Консолидация баз данных: этапы, методы и примеры

Как упростить анализ данных? Запуск и сценарии использования готовой виртуальной машины для аналитики

«Midjourney на коленке». Как развернуть нейросеть в облаке за 5 минут, или начало работы с Diffusers

Полезные материалы по Data Science и машинному обучению, которые помогут пройти сквозь джунгли из терминов

Большие данные мертвы. Это нужно принять

Прощай, Data Science