❓Кто такой аналитик данных и зачем он нужен
Аналитик данных — это специалист, который умеет открывать доставать данные, очищать и фильтровать их, проводить исследование, визуализировать и интерпретировать результаты обработки данных. Его главная задача — помочь бизнесу принимать решения, основанные не на интуиции, а на фактах и цифрах (data‑driven подход).
Аналитик данных может ответить на вопросы, критически важные для любой компании:
-
Что произошло? (Например, насколько выросли продажи после прошлой рекламной кампании)
-
Почему это произошло? (Например, продажи выросли из-за удачного таргетинга или сезонного спроса?)
-
Что, вероятно, произойдет в будущем? (Какой будет спрос на товар в следующем месяце?)
-
Что нужно сделать, чтобы достичь цели? (Как изменить цену, чтобы увеличить прибыль?)
📚Основные навыки начинающего аналитика
Мир аналитики многогранен, и требования к специалистам могут немного различаться в зависимости от компании и конкретной роли (системный, продуктовый, бизнес-аналитик и тд) . Однако существует фундаментальный набор знаний и у��ений, который станет вашей опорой в самом начале пути.
1 Математический фундамент: статистика и теория вероятностей
Аналитика - это не просто перекладывание цифр и базовые вычисления с ними, тут очень важно понимать, как работают математические законы, лежащие в основе анализа - это поможет вам не ошибиться в выводах и не принять случайное совпадение за закономерность. Базовые понятия:
-
Начальная математика и математический анализ: переменные, функции, логарифмы, пределы, производные, интегралы.
-
Описательная статистика: среднее, медиана, мода, стандартное отклонение, дисперсия, нормальное распределение.
-
Теория вероятностей: пересечение событий, объединение событий, условная вероятность и формула Байера, биномиальное распределение, бета-распределение.
-
Понимание корреляции и регрессии.
-
Основы проверки гипотез и AB-тестирования.
*Тут мне очень нравится книга «Математика для Data Science» Т. Нилд.
2 Язык общения с базами данных: SQL
Это, безусловно, самый важный технический навык для любого аналитика . SQL (Structured Query Language) - это язык, на котором вы «разговариваете» с базами данных, чтобы получить из них нужную вам информацию. У этого языка много разных диалектов, но суть примерно одинакова, так начинающему специалисту необходимо уверенно владеть следующими темами:
-
Базовые запросы:
SELECT,FROM,WHEREдля выборки данных по условиям. -
Группировка и сортировка:
GROUP BYиORDER BYдля структурирования результатов. -
Агрегатные функции:
SUM,COUNT,AVG,MIN,MAXдля подсчета итогов. -
Соединение таблиц:
JOIN(INNER,LEFT,RIGHT) - важнейший навык для объединения данных из разных источников. -
Подзапросы и временные таблицы: для создания более сложных и многоступенчатых запросов.
-
Оконные функции: продвинутый, но крайне полезный инструмент для скользящих расчетов.
-
Обработка данных:
CASE,COALESCE,IIFдля разметки данных и избавления от NULL значений.
*Тут можно пройти курс на Stepik или тренажер на SQL-Ex, есть хороший бесплатный курс «Симулятор SQL» от Karpov Courses, когда уже будет уверенность в знаниях, можно взять датасет (например, с Kaggle) и написать 10 разных SQL-запросов к нему, выгрузив разные срезы.
3 Язык для глубины и гибкости аналитики: Python (или R)
SQL отлично подходит для извлечения и первичной обработки данных. Но для более глубокого анализа, статистических расчетов, автоматизации или построения прогнозов нужен более мощный инструмент, в аналитике данных чаще всего используют Python(но R не менее функционален и полезен). Вам не нужно становиться профессиональным разработчиком, но необходимо освоить базовый синтаксис и специализированные библиотеки :
-
Pandas: основа основ для работы с табличными данными (DataFrame). Позволяет чистить, фильтровать, трансформировать и сводить данные с невероятной гибкостью.
-
Matplotlib/Seaborn: библиотеки для визуализации данных, с их помощью вы сможете строить графики и наглядно представлять найденные закономерности.
-
NumPy: библиотека для всех математических операций
Понять синтаксис Python.
-
Погрузиться в Pandas: научиться чистить данные (убирать пропуски, менять типы).
-
Вспомнить школьную математику и прочитать про t-критерий.
*Тут важно понять базовый синтаксис Python, погрузиться в основные библиотеки - бесплатных обучающих материалов, в том числе и видео материалов очень много.
4 Инструменты для визуализации и «быстрых» ответов
Не всегда нужно писать сложный код, для создания наглядных отчетов и дашбордов, а также для быстрого ad-hoc анализа пригодятся другие инструменты:
-
BI-системы (Power BI, Tableau, Redash): они позволяют превращать «скучные» цифры в интерактивные графики и понятные заказчику дашборды, а также сократить количество ad-hoc задач в вашей жизни.
-
Excel/Google Таблицы: не стоит их недооценивать! Это мощнейший инструмент для быстрого анализа, где сводные таблицы и функции ВПР могут решить множество задач еще до того, как вы откроете редактор кода.
*Если опыта пока нет можно скачать Power BI Desktop и сделать дашборд по открытым данным (например, по статистике авиаперелетов или продаж игр) и оформить проект на GitHub.
5 Устройство хранилищ данных (DWH)
Вы будете работать с данными, которые кто-то до вас сложил в базу, но если вы понимаете, как они туда попали, вы будете писать более правильные запросы и тратить меньше времени на отладку. Что тут нужно знать:
-
Схемы данных: Понимание разницы между ODS (Operational Data Store), DM (Data Mart) и витринами данных, то есть куда лезть за сырыми данными, а где брать уже агрегированные отчеты.
-
ETL/ELT процессы: Понимание, что данные обновляются раз в час или раз в день, знание этого спасет вас от ситуации, когда вы делаете отчет по продажам «за минуту», а хранилище обновляется раз в сутки.
-
Организация данных: Что такое партиционирование и почему запросы к большим таблицам нужно писать с учетом партиций, иначе база «упадет».
Зачем это аналитику? Чтобы не задавать глупых вопросов дата-инженерам и не ждать сутками выполнения своих запросов. Вы сможете сами найти нужные данные в нужном слое.
6 Машинное обучение (ML)
От вас не ждут, что вы напишете нейросеть с трансформерами, но от современного аналитика ждут понимания основ ML, чтобы вы как минимум могли:
-
Ставить задачи дата-сайентистам.
-
Понимать, можно ли вообще решить задачу бизнеса без привлечения тяжелой артиллерии.
-
Строить простые прогнозы самостоятельно.
Что нужно знать:
-
Задачи ML: Классификация, регрессия, кластеризация. Понимать разницу на пальцах.
-
Библиотеки: Базовое знакомство с Scikit-learn: умение сделать простую линейную регрессию или логистическую регрессию в Python.
-
Метрики качества: Чем Accuracy отличается от Precision и Recall, и почему Accuracy может врать (например, при поиске спама). Понимание метрик регрессии: MAE, RMSE, R².
-
Переобучение: Что это такое и почему модель, которая идеально считает на прошлых данных, может провалиться на новых.
Зачем это аналитику? Мир идет к тому, что грань между аналитикой и DS стирается, сейчас аналитик должен уметь «пилотировать» простые модели, а сложные — отдавать в разработку, понимая, чего оттуда ждать.
*Тут важно почитать про библиотеки и метрики (статьи на Хабре), попробовать обучить простую модель на Kaggle (например, предсказание цен на дома) с помощью готового ноутбука, разбирая каждую строчку.
📚Софт-скиллы, которые решают всё
1 Понимание бизнеса
Самая частая ошибка - сделать крутой отчет, который никому не нужен, прежде чем писать запрос, нужно спросить: «А зачем? Какую проблему мы решаем?», понять «боль» заказчика и найти для нее решение.
2 Коммуникация
Вы - переводчик с языка бизнеса на язык данных и обратно, заказчик говорит: «Что-то клиенты перестали покупать», а вы должны перевести это в гипотезы: проверим конверсию в воронке, смотрим динамику по неделям, сегментируем по каналам трафика.
3 Управление ожиданиями (самый недооцененный навык)
В чем суть: бизнес часто не понимает, что можно получить от данных, а что нельзя, он ждет «серебряную пулю», тут как раз задача аналитика - с самого начала очертить границы возможного.
Как это работает на практике:
-
Сроки. Вас просят: «сделай отчет по продажам за вчера», вы говорите: «хорошо, будет через час», а через час выясняется, что данные в DWH обновляются только в 10 утра, и отчета не будет до обеда.
-
Как надо: Сразу уточнить, откуда берутся данные и когда они актуальны, сказать не «сделаю», а «сделаю, но данные будут актуальны на вчерашний день, отчет будет готов к 11:00».
-
-
Объем работы. Вас просят «посмотреть динамику продаж», вы присылаете график, а вам говорят: «а давай еще по регионам, по товарам, и еще и прогноз на месяц».
-
Как надо: На этапе постановки задачи зафиксировать ТЗ (устно или письменно): «Смотрим динамику продаж по неделям в целом по компании, но если потребуется детализация, это будет следующим этапом».
-
-
Качество данных. Вам дали «грязные» данные, вы посчитали, получилась ерунда, бизнес кричит: «Ты плохой аналитик!».
-
Как надо: Прежде чем показывать цифры, нужно сказать: «Коллеги, данные выглядят сырыми, тут пропуски и дубликаты, сначала я почищу, но итоговые цифры могут отличаться от ваших ожиданий, и мы потеряем 20% данных». Вы предупредили = вы сняли с себя ответственность за качество источника.
-
Золотое правило: Лучше пообещать меньше, но сделать быстрее и качественнее, чем пообещать золотые горы и не сдать, всегда старайтесь закладывать люфт в сроки и всегда уточняйте вводные.
Автор: TanyaVSdannye
