- PVSM.RU - https://www.pvsm.ru -
Аналитик данных — это специалист, который умеет открывать доставать данные, очищать и фильтровать их, проводить исследование, визуализировать и интерпретировать результаты обработки данных. Его главная задача — помочь бизнесу принимать решения, основанные не на интуиции, а на фактах и цифрах (data‑driven подход).
Аналитик данных может ответить на вопросы, критически важные для любой компании:
Что произошло? (Например, насколько выросли продажи после прошлой рекламной кампании)
Почему это произошло? (Например, продажи выросли из-за удачного таргетинга или сезонного спроса?)
Что, вероятно, произойдет в будущем? (Какой будет спрос на товар в следующем месяце?)
Что нужно сделать, чтобы достичь цели? (Как изменить цену, чтобы увеличить прибыль?)
Мир аналитики многогранен, и требования к специалистам могут немного различаться в зависимости от компании и конкретной роли (системный, продуктовый, бизнес-аналитик и тд) . Однако существует фундаментальный набор знаний и у��ений, который станет вашей опорой в самом начале пути.
Аналитика - это не просто перекладывание цифр и базовые вычисления с ними, тут очень важно понимать, как работают математические законы, лежащие в основе анализа - это поможет вам не ошибиться в выводах и не принять случайное совпадение за закономерность. Базовые понятия:
Начальная математика и математический анализ: переменные, функции, логарифмы, пределы, производные, интегралы.
Описательная статистика: среднее, медиана, мода, стандартное отклонение, дисперсия, нормальное распределение.
Теория вероятностей: пересечение событий, объединение событий, условная вероятность и формула Байера, биномиальное распределение, бета-распределение.
Понимание корреляции и регрессии.
Основы проверки гипотез и AB-тестирования.
*Тут мне очень нравится книга «Математика для Data Science» Т. Нилд.
Это, безусловно, самый важный технический навык для любого аналитика . SQL (Structured Query Language) - это язык, на котором вы «разговариваете» с базами данных, чтобы получить из них нужную вам информацию. У этого языка много разных диалектов, но суть примерно одинакова, так начинающему специалисту необходимо уверенно владеть следующими темами:
Базовые запросы: SELECT, FROM, WHERE для выборки данных по условиям.
Группировка и сортировка: GROUP BY и ORDER BY для структурирования результатов.
Агрегатные функции: SUM, COUNT, AVG, MIN, MAX для подсчета итогов.
Соединение таблиц: JOIN (INNER, LEFT, RIGHT) - важнейший навык для объединения данных из разных источников.
Подзапросы и временные таблицы: для создания более сложных и многоступенчатых запросов.
Оконные функции: продвинутый, но крайне полезный инструмент для скользящих расчетов.
Обработка данных: CASE, COALESCE, IIF для разметки данных и избавления от NULL значений.
*Тут можно пройти курс на Stepik или тренажер на SQL-Ex, есть хороший бесплатный курс «Симулятор SQL» от Karpov Courses, когда уже будет уверенность в знаниях, можно взять датасет (например, с Kaggle) и написать 10 разных SQL-запросов к нему, выгрузив разные срезы.
SQL отлично подходит для извлечения и первичной обработки данных. Но для более глубокого анализа, статистических расчетов, автоматизации или построения прогнозов нужен более мощный инструмент, в аналитике данных чаще всего используют Python(но R не менее функционален и полезен). Вам не нужно становиться профессиональным разработчиком, но необходимо освоить базовый синтаксис и специализированные библиотеки :
Pandas: основа основ для работы с табличными данными (DataFrame). Позволяет чистить, фильтровать, трансформировать и сводить данные с невероятной гибкостью.
Matplotlib/Seaborn: библиотеки для визуализации данных, с их помощью вы сможете строить графики и наглядно представлять найденные закономерности.
NumPy: библиотека для всех математических операций
Понять синтаксис Python.
Погрузиться в Pandas: научиться чистить данные (убирать пропуски, менять типы).
Вспомнить школьную математику и прочитать про t-критерий.
*Тут важно понять базовый синтаксис Python, погрузиться в основные библиотеки - бесплатных обучающих материалов, в том числе и видео материалов очень много.
Не всегда нужно писать сложный код, для создания наглядных отчетов и дашбордов, а также для быстрого ad-hoc анализа пригодятся другие инструменты:
BI-системы (Power BI, Tableau, Redash): они позволяют превращать «скучные» цифры в интерактивные графики и понятные заказчику дашборды, а также сократить количество ad-hoc задач в вашей жизни.
Excel/Google Таблицы: не стоит их недооценивать! Это мощнейший инструмент для быстрого анализа, где сводные таблицы и функции ВПР могут решить множество задач еще до того, как вы откроете редактор кода.
*Если опыта пока нет можно скачать Power BI Desktop и сделать дашборд по открытым данным (например, по статистике авиаперелетов или продаж игр) и оформить проект на GitHub.
Вы будете работать с данными, которые кто-то до вас сложил в базу, но если вы понимаете, как они туда попали, вы будете писать более правильные запросы и тратить меньше времени на отладку. Что тут нужно знать:
Схемы данных: Понимание разницы между ODS (Operational Data Store), DM (Data Mart) и витринами данных, то есть куда лезть за сырыми данными, а где брать уже агрегированные отчеты.
ETL/ELT процессы: Понимание, что данные обновляются раз в час или раз в день, знание этого спасет вас от ситуации, когда вы делаете отчет по продажам «за минуту», а хранилище обновляется раз в сутки.
Организация данных: Что такое партиционирование и почему запросы к большим таблицам нужно писать с учетом партиций, иначе база «упадет».
Зачем это аналитику? Чтобы не задавать глупых вопросов дата-инженерам и не ждать сутками выполнения своих запросов. Вы сможете сами найти нужные данные в нужном слое.
От вас не ждут, что вы напишете нейросеть с трансформерами, но от современного аналитика ждут понимания основ ML, чтобы вы как минимум могли:
Ставить задачи дата-сайентистам.
Понимать, можно ли вообще решить задачу бизнеса без привлечения тяжелой артиллерии.
Строить простые прогнозы самостоятельно.
Что нужно знать:
Задачи ML: Классификация, регрессия, кластеризация. Понимать разницу на пальцах.
Библиотеки: Базовое знакомство с Scikit-learn: умение сделать простую линейную регрессию или логистическую регрессию в Python.
Метрики качества: Чем Accuracy отличается от Precision и Recall, и почему Accuracy может врать (например, при поиске спама). Понимание метрик регрессии: MAE, RMSE, R².
Переобучение: Что это такое и почему модель, которая идеально считает на прошлых данных, может провалиться на новых.
Зачем это аналитику? Мир идет к тому, что грань между аналитикой и DS стирается, сейчас аналитик должен уметь «пилотировать» простые модели, а сложные — отдавать в разработку, понимая, чего оттуда ждать.
*Тут важно почитать про библиотеки и метрики (статьи на Хабре), попробовать обучить простую модель на Kaggle (например, предсказание цен на дома) с помощью готового ноутбука, разбирая каждую строчку.
Самая частая ошибка - сделать крутой отчет, который никому не нужен, прежде чем писать запрос, нужно спросить: «А зачем? Какую проблему мы решаем?», понять «боль» заказчика и найти для нее решение.
Вы - переводчик с языка бизнеса на язык данных и обратно, заказчик говорит: «Что-то клиенты перестали покупать», а вы должны перевести это в гипотезы: проверим конверсию в воронке, смотрим динамику по неделям, сегментируем по каналам трафика.
В чем суть: бизнес часто не понимает, что можно получить от данных, а что нельзя, он ждет «серебряную пулю», тут как раз задача аналитика - с самого начала очертить границы возможного.
Как это работает на практике:
Сроки. Вас просят: «сделай отчет по продажам за вчера», вы говорите: «хорошо, будет через час», а через час выясняется, что данные в DWH обновляются только в 10 утра, и отчета не будет до обеда.
Как надо: Сразу уточнить, откуда берутся данные и когда они актуальны, сказать не «сделаю», а «сделаю, но данные будут актуальны на вчерашний день, отчет будет готов к 11:00».
Объем работы. Вас просят «посмотреть динамику продаж», вы присылаете график, а вам говорят: «а давай еще по регионам, по товарам, и еще и прогноз на месяц».
Как надо: На этапе постановки задачи зафиксировать ТЗ (устно или письменно): «Смотрим динамику продаж по неделям в целом по компании, но если потребуется детализация, это будет следующим этапом».
Качество данных. Вам дали «грязные» данные, вы посчитали, получилась ерунда, бизнес кричит: «Ты плохой аналитик!».
Как надо: Прежде чем показывать цифры, нужно сказать: «Коллеги, данные выглядят сырыми, тут пропуски и дубликаты, сначала я почищу, но итоговые цифры могут отличаться от ваших ожиданий, и мы потеряем 20% данных». Вы предупредили = вы сняли с себя ответственность за качество источника.
Золотое правило: Лучше пообещать меньше, но сделать быстрее и качественнее, чем пообещать золотые горы и не сдать, всегда старайтесь закладывать люфт в сроки и всегда уточняйте вводные.
Автор: TanyaVSdannye
Источник [1]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/analiz-danny-h/445784
Ссылки в тексте:
[1] Источник: https://habr.com/ru/articles/1003704/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1003704
Нажмите здесь для печати.