Путь в аналитику данных: базовый минимум для старта

в 19:16, , рубрики: data analysis, hard skills, sql, анализ данных, аналитик данных, аналитик данных обучение, карьера аналитика, карьера аналитика данных, карьера ИТ-специалиста

❓Кто такой аналитик данных и зачем он нужен

Аналитик данных — это специалист, который умеет открывать доставать данные, очищать и фильтровать их, проводить исследование, визуализировать и интерпретировать результаты обработки данных. Его главная задача — помочь бизнесу принимать решения, основанные не на интуиции, а на фактах и цифрах (data‑driven подход).

Аналитик данных может ответить на вопросы, критически важные для любой компании:

  • Что произошло? (Например, насколько выросли продажи после прошлой рекламной кампании)

  • Почему это произошло? (Например, продажи выросли из-за удачного таргетинга или сезонного спроса?)

  • Что, вероятно, произойдет в будущем? (Какой будет спрос на товар в следующем месяце?)

  • Что нужно сделать, чтобы достичь цели? (Как изменить цену, чтобы увеличить прибыль?)

📚Основные навыки начинающего аналитика

Мир аналитики многогранен, и требования к специалистам могут немного различаться в зависимости от компании и конкретной роли (системный, продуктовый, бизнес-аналитик и тд) . Однако существует фундаментальный набор знаний и у��ений, который станет вашей опорой в самом начале пути.

1 Математический фундамент: статистика и теория вероятностей

Аналитика - это не просто перекладывание цифр и базовые вычисления с ними, тут очень важно понимать, как работают математические законы, лежащие в основе анализа - это поможет вам не ошибиться в выводах и не принять случайное совпадение за закономерность. Базовые понятия:

  • Начальная математика и математический анализ: переменные, функции, логарифмы, пределы, производные, интегралы.

  • Описательная статистика: среднее, медиана, мода, стандартное отклонение, дисперсия, нормальное распределение.

  • Теория вероятностей: пересечение событий, объединение событий, условная вероятность и формула Байера, биномиальное распределение, бета-распределение.

  • Понимание корреляции и регрессии.

  • Основы проверки гипотез и AB-тестирования.

*Тут мне очень нравится книга «Математика для Data Science» Т. Нилд.

2 Язык общения с базами данных: SQL

Это, безусловно, самый важный технический навык для любого аналитика . SQL (Structured Query Language) - это язык, на котором вы «разговариваете» с базами данных, чтобы получить из них нужную вам информацию. У этого языка много разных диалектов, но суть примерно одинакова, так начинающему специалисту необходимо уверенно владеть следующими темами:

  • Базовые запросы: SELECTFROMWHERE для выборки данных по условиям.

  • Группировка и сортировка: GROUP BY и ORDER BY для структурирования результатов.

  • Агрегатные функции: SUMCOUNTAVGMINMAX для подсчета итогов.

  • Соединение таблиц: JOIN (INNERLEFTRIGHT) - важнейший навык для объединения данных из разных источников.

  • Подзапросы и временные таблицы: для создания более сложных и многоступенчатых запросов.

  • Оконные функции: продвинутый, но крайне полезный инструмент для скользящих расчетов.

  • Обработка данных: CASECOALESCEIIF для разметки данных и избавления от NULL значений.

*Тут можно пройти курс на Stepik или тренажер на SQL-Ex, есть хороший бесплатный курс «Симулятор SQL» от Karpov Courses, когда уже будет уверенность в знаниях, можно взять датасет (например, с Kaggle) и написать 10 разных SQL-запросов к нему, выгрузив разные срезы.

3 Язык для глубины и гибкости аналитики: Python (или R)

SQL отлично подходит для извлечения и первичной обработки данных. Но для более глубокого анализа, статистических расчетов, автоматизации или построения прогнозов нужен более мощный инструмент, в аналитике данных чаще всего используют Python(но R не менее функционален и полезен). Вам не нужно становиться профессиональным разработчиком, но необходимо освоить базовый синтаксис и специализированные библиотеки :

  • Pandas: основа основ для работы с табличными данными (DataFrame). Позволяет чистить, фильтровать, трансформировать и сводить данные с невероятной гибкостью.

  • Matplotlib/Seaborn: библиотеки для визуализации данных, с их помощью вы сможете строить графики и наглядно представлять найденные закономерности.

  • NumPy: библиотека для всех математических операций

    Понять синтаксис Python.

  • Погрузиться в Pandas: научиться чистить данные (убирать пропуски, менять типы).

  • Вспомнить школьную математику и прочитать про t-критерий.

*Тут важно понять базовый синтаксис Python, погрузиться в основные библиотеки - бесплатных обучающих материалов, в том числе и видео материалов очень много.

4 Инструменты для визуализации и «быстрых» ответов

Не всегда нужно писать сложный код, для создания наглядных отчетов и дашбордов, а также для быстрого ad-hoc анализа пригодятся другие инструменты:

  • BI-системы (Power BI, Tableau, Redash): они позволяют превращать «скучные» цифры в интерактивные графики и понятные заказчику дашборды, а также сократить количество ad-hoc задач в вашей жизни.

  • Excel/Google Таблицы: не стоит их недооценивать! Это мощнейший инструмент для быстрого анализа, где сводные таблицы и функции ВПР могут решить множество задач еще до того, как вы откроете редактор кода.

*Если опыта пока нет можно скачать Power BI Desktop и сделать дашборд по открытым данным (например, по статистике авиаперелетов или продаж игр) и оформить проект на GitHub.

5 Устройство хранилищ данных (DWH)

Вы будете работать с данными, которые кто-то до вас сложил в базу, но если вы понимаете, как они туда попали, вы будете писать более правильные запросы и тратить меньше времени на отладку. Что тут нужно знать:

  • Схемы данных: Понимание разницы между ODS (Operational Data Store)DM (Data Mart) и витринами данных, то есть куда лезть за сырыми данными, а где брать уже агрегированные отчеты.

  • ETL/ELT процессы: Понимание, что данные обновляются раз в час или раз в день, знание этого спасет вас от ситуации, когда вы делаете отчет по продажам «за минуту», а хранилище обновляется раз в сутки.

  • Организация данных: Что такое партиционирование и почему запросы к большим таблицам нужно писать с учетом партиций, иначе база «упадет».

Зачем это аналитику? Чтобы не задавать глупых вопросов дата-инженерам и не ждать сутками выполнения своих запросов. Вы сможете сами найти нужные данные в нужном слое.

6 Машинное обучение (ML)

От вас не ждут, что вы напишете нейросеть с трансформерами, но от современного аналитика ждут понимания основ ML, чтобы вы как минимум могли:

  • Ставить задачи дата-сайентистам.

  • Понимать, можно ли вообще решить задачу бизнеса без привлечения тяжелой артиллерии.

  • Строить простые прогнозы самостоятельно.

Что нужно знать:

  • Задачи ML: Классификация, регрессия, кластеризация. Понимать разницу на пальцах.

  • Библиотеки: Базовое знакомство с Scikit-learn: умение сделать простую линейную регрессию или логистическую регрессию в Python.

  • Метрики качества: Чем Accuracy отличается от Precision и Recall, и почему Accuracy может врать (например, при поиске спама). Понимание метрик регрессии: MAE, RMSE, R².

  • Переобучение: Что это такое и почему модель, которая идеально считает на прошлых данных, может провалиться на новых.

Зачем это аналитику? Мир идет к тому, что грань между аналитикой и DS стирается, сейчас аналитик должен уметь «пилотировать» простые модели, а сложные — отдавать в разработку, понимая, чего оттуда ждать.

*Тут важно почитать про библиотеки и метрики (статьи на Хабре), попробовать обучить простую модель на Kaggle (например, предсказание цен на дома) с помощью готового ноутбука, разбирая каждую строчку.

📚Софт-скиллы, которые решают всё

1 Понимание бизнеса

Самая частая ошибка - сделать крутой отчет, который никому не нужен, прежде чем писать запрос, нужно спросить: «А зачем? Какую проблему мы решаем?», понять «боль» заказчика и найти для нее решение.

2 Коммуникация

Вы - переводчик с языка бизнеса на язык данных и обратно, заказчик говорит: «Что-то клиенты перестали покупать», а вы должны перевести это в гипотезы: проверим конверсию в воронке, смотрим динамику по неделям, сегментируем по каналам трафика.

3 Управление ожиданиями (самый недооцененный навык)

В чем суть: бизнес часто не понимает, что можно получить от данных, а что нельзя, он ждет «серебряную пулю», тут как раз задача аналитика - с самого начала очертить границы возможного.

Как это работает на практике:

  • Сроки. Вас просят: «сделай отчет по продажам за вчера», вы говорите: «хорошо, будет через час», а через час выясняется, что данные в DWH обновляются только в 10 утра, и отчета не будет до обеда.

    • Как надо: Сразу уточнить, откуда берутся данные и когда они актуальны, сказать не «сделаю», а «сделаю, но данные будут актуальны на вчерашний день, отчет будет готов к 11:00».

  • Объем работы. Вас просят «посмотреть динамику продаж», вы присылаете график, а вам говорят: «а давай еще по регионам, по товарам, и еще и прогноз на месяц».

    • Как надо: На этапе постановки задачи зафиксировать ТЗ (устно или письменно): «Смотрим динамику продаж по неделям в целом по компании, но если потребуется детализация, это будет следующим этапом».

  • Качество данных. Вам дали «грязные» данные, вы посчитали, получилась ерунда, бизнес кричит: «Ты плохой аналитик!».

    • Как надо: Прежде чем показывать цифры, нужно сказать: «Коллеги, данные выглядят сырыми, тут пропуски и дубликаты, сначала я почищу, но итоговые цифры могут отличаться от ваших ожиданий, и мы потеряем 20% данных». Вы предупредили = вы сняли с себя ответственность за качество источника.

Золотое правило: Лучше пообещать меньше, но сделать быстрее и качественнее, чем пообещать золотые горы и не сдать, всегда старайтесь закладывать люфт в сроки и всегда уточняйте вводные.

Автор: TanyaVSdannye

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js