- PVSM.RU - https://www.pvsm.ru -
Недавно мне на глаза попалась статья [1] про анализ датасета резюме hh.ru, который участвовал в каком-то хакатоне. Это навело меня на мысль самому поиграться с данными резюме. Тем более что у меня их немного больше. Я выбрал самую интересную для меня профобласть, которую можно указать в резюме, — «Информационные технологии, интернет, телеком».
Под катом вас ожидает много графиков, на которых вы узнаете, сколько получают люди в различных айтишных специализациях, выпускники каких вузов хотят больше всего денег, у каких работодателей айтишники задерживаются меньше всего, зарабатывают ли пользователи гуглопочты больше, чем пользователи почты Яндекса или Мейла, и много другой информации.

Всё описанное ниже — это лишь моё видение того, как оно должно быть. Графики не претендуют на полную объективность и отражение реальной ситуации. В любом месте я мог допустить ошибку.
Я взял российские резюме из профобласти «Информационные технологии, интернет, телеком», которые обновлялись за последний год. Далее для всех графиков следует учитывать, что приведенные ниже показатели — это не абсолютный срез по стране, а только по той части, которая присутствует на hh.ru. Она может быть смещенная.
В общей сложности в анализе участвует 566 178 резюме айтишников. Все графики кликабельны.
В профобласти «Информационные технологии, интернет, телеком» можно выбрать до трех специализаций. На графике показано, сколько человек какую специализацию выбрали:
[2]
При создании резюме можно не указывать свою заплату. Как видим, этим пользуется порядка 40% айтишников.
[3]
[4]
Перевесом мужчин в IT никого не удивишь. Почему так мало женщин — сисадминов, сетевиков и руководящих технарей?
Ну а теперь посмотрим, сколько денег хотят мужчины и женщины в разных специализациях по всей России.
Следующий график — это boxplot, или по-нашему — ящик с усами. Читается он так. Черта внутри ящика — это медиана. То есть половина людей получает больше этой суммы, а другая половина — меньше. Значение медианы я постарался почти на всех графиках подписать. Ящик представляет собой интерквартильный размах (IQR) и включает в себя 50% всех резюме: от 1-го квартиля (25%) до 3-го квартиля (75%). Другими словами, 25% резюме хотят меньше денег, чем левая граница ящика, и 25% хотят больше денег, чем правая граница ящика. Усы же ограничивают почти все остальные данные: 0,35% всех резюме хотят меньше денег, чем у левой границы, и 0,35% хотят больше, чем граница правого уса. Все, кто не вошел в указанные интервалы, — выбросы и отмечаются отдельными точками.
[5]
Ни для кого не секрет, что в Москве и Санкт-Петербурге больше айтишников, чем в других регионах нашей страны, и уровень оплаты там выше среднего по стране. Поэтому я сделал для этих городов отдельные графики с распределением зарплат по специализациям.
[7]
На всех трех графиках одинаковые ожидания по денежной компенсации между мужчинами и женщинами можно увидеть у тестировщиков. Кстати, в эту IT-область девушки идут с большей охотой, чем во многие другие.
Стоит отметить, что в Москве и Питере женская медиана у технических начальниц выше. Но если посмотреть на график распределения по количеству мужчин и женщин в этой специальности, то видно, что вторых значительно меньше.
[8]
Видим, что по зарплате айтишники уступают только добыче сырья, консультированию и высшему менеджменту. В 24 из 28 профобластей женщины хотят меньше денег (по медиане). В остальных — поровну.
Еще раз уточню, что график отражает не реальное распределение айтишников по стране, а только те резюме, которые есть на hh.ru. Уровень использования сайта в регионах отличается.
[9]
Для данного графика я получил все активные вакансии и резюме, которые обновлялись в течение года, и для каждого региона поделил количество резюме на количество вакансий. Также я исключил регионы, где количество айтишников меньше 1000.
[10]
Видно, что в лидеры вырвалась Московская область. Она не включает в себя саму Москву. Скорее всего, так потому, что много айтишников, особенно приезжих, расселяется на периферии, а работа по большей части в самом городе.
На следующем графике я посчитал, какой процент от общего числа резюме в данном регионе занимают айтишники.
[11]
Интересная разница между Питером и Ленинградской областью и Москвой и Московской областью. Скорее всего, это из-за наличия в МО таких крупных притонов для айтишников, как Мытищи, Химки, Люберцы и прочих, которые относятся к области, но близко к городу.
В резюме можно указывать ключевые навыки. На следующем графике показан топ выбранных навыков для всех айтишников.
[13]
Интересно посмотреть основные ключевые навыки только для разработчиков.
[14]
[17]
Молодёжь чаще идёт в web и игрушки. Мне кажется, это отличная точка входа в IT.
[18]
Порядок нарушают лишь те, кто проработал уже более 20 лет. Скорее всего, так потому, что в этой категории много тех, кто пришел в IT из другой области. Так как в резюме люди часто любят указывать не только релевантный данной профобласти опыт.
[20]
Большинство указывает, что время, затраченное на дорогу до работы, не имеет значения. В Питере и Москве люди несколько глубже осознают это «не имеет значения» и поэтому реже выбирают этот пункт.
В резюме можно указывать ближайшую станцию метро. Посмотрим для Москвы, где больше всего людей.
[21]
Я не нашел простого способа поставить в питоновском gmap текстовый лейбл, поэтому отмеченные маркерами станции обозначены отдельно:
[22]
Большинство указанных станций — основные точки входа в город из людных замкадных мест.
Я скачал базу DEF-кодов [23] на сайте Россвязи, немного причесал её и смапил с номерами телефонов из резюме.
[24]
Для данного графика различные домены одной компании я объединил в одну группу. Кстати, любопытный факт, которого не видно на графике, про Яндекс.Почту, что подавляющее большинство указывает в email-адресе домен yandex.ru, а не ya.ru
[25]
Я всегда считал, что самые крутые чуваки пользуются Gmail, средние — Яндексом, а остальные используют почту Mail.ru. Сейчас посмотрим, какие зарплатные ожидания будут по этим трем группам.
[26]
Так что, ребята, если хотите больше денег — вы знаете, что делать.
Ну а теперь посмотрим, выпускники каких вузов хотят больше всего денег. Я отсеял все заведения, где училось меньше 1000 человек из выборки.
[27]
В опыте работы можно указать продолжительность работы в данной компании. Я взял все, через которые прошло более 500 айтишников.
[28]
Видно, что попадаются не очень айтишные организации. Всё потому, что в опыте работы указывается не только релевантный опыт.
Посмотрим, люди с опытом работы в каких компаниях хотят больше всего денег. Возьму Москву и Питер отдельно.
Москва:
[29]
Санкт-Петербург:
[30]
В процессе рисования графиков у меня появлялись всё новые и новые идеи что можно сделать ещё, но я решил остановиться на том, что есть. Если этот пост хорошо зайдёт, я сделаю продолжение.
В рисовании графиков мне помогали: Python [31], Jupyter notebook [32], Pandas [33], Seaborn [34], Apache Hive [35] и другие.
Задавайте вопросы.
Всем спасибо.
Автор: Александр Дмитриев
Источник [36]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/data-mining/270934
Ссылки в тексте:
[1] статья: https://habrahabr.ru/post/271407/
[2] Image: https://habrastorage.org/webt/fu/8r/2m/fu8r2myh_am8s1jgtchtslpmb24.png
[3] Image: https://habrastorage.org/webt/3q/w9/ax/3qw9axdbiljwm7ot11pzu9ez4uw.png
[4] Image: https://habrastorage.org/webt/bq/zz/ti/bqzzti__uobt-n3b7ae5zh3ifc4.png
[5] Image: https://habrastorage.org/webt/af/-b/kb/af-bkbt6asisa28un8yzo1itccu.png
[6] Image: https://habrastorage.org/webt/zw/n0/dx/zwn0dxnjp2qknmtjhwbs02htu2a.png
[7] Image: https://habrastorage.org/webt/ix/rx/an/ixrxanjcettxbokkiljkzkd0sju.png
[8] Image: https://habrastorage.org/webt/sr/kn/dm/srkndm-lzzczvpt15cozo72nkzy.png
[9] Image: https://habrastorage.org/webt/ue/up/cx/ueupcxxsdga4zxyrslzbay8vw90.png
[10] Image: https://habrastorage.org/webt/ou/ug/pm/ouugpmbctqrny5xfs8qkv-mv_om.png
[11] Image: https://habrastorage.org/webt/yd/wh/gu/ydwhgupozx-lfupxtm0k9izugb4.png
[12] Image: https://habrastorage.org/webt/ik/gd/bi/ikgdbi08btqgr5t_azx6wwijg7k.png
[13] Image: https://habrastorage.org/webt/a0/qu/wb/a0quwb9xb_pry_t0bhyd9olhlii.png
[14] Image: https://habrastorage.org/webt/t8/ap/rp/t8aprp2vpymtby_ezrhiinf4zvc.png
[15] Image: https://habrastorage.org/webt/zc/qu/sc/zcquscuqlmwnvzdjvjbbl9sg5jo.png
[16] Image: https://habrastorage.org/webt/kn/_s/am/kn_samv7qgk13ssasp2b6we7gfw.png
[17] Image: https://habrastorage.org/webt/jq/sr/ev/jqsrevk4zxn7igm4pks-xogdoqk.png
[18] Image: https://habrastorage.org/webt/rz/tg/my/rztgmykjwtm0yu_sxyrpe7hqlqo.png
[19] Image: https://habrastorage.org/webt/cs/uc/jd/csucjdvpmgkvonmfehzn8prbdrm.png
[20] Image: https://habrastorage.org/webt/lp/lf/sl/lplfslwwkumxq3_h2xfsr6brlpi.png
[21] Image: https://habrastorage.org/webt/1f/pj/xf/1fpjxfeg0chlbccua8lsavlirwo.png
[22] Image: https://habrastorage.org/webt/z0/d6/5o/z0d65ojnyx45nie0k-q-1upkxrk.png
[23] базу DEF-кодов: http://www.rossvyaz.ru/activity/num_resurs/registerNum/
[24] Image: https://habrastorage.org/webt/hk/ah/mz/hkahmz5d7l33bgkqdj7t7vj19yq.png
[25] Image: https://habrastorage.org/webt/-5/y0/ol/-5y0olr8d8glpysvlzammvjz_lu.png
[26] Image: https://habrastorage.org/webt/ww/ep/oy/wwepoyl3aowbjschtos-cevb0_i.png
[27] Image: https://habrastorage.org/webt/ao/dm/em/aodmemd3rgwgm56obtlaxqiao9g.png
[28] Image: https://habrastorage.org/webt/dg/0b/gc/dg0bgc1wwqsts92-ylykidzfks4.png
[29] Image: https://habrastorage.org/webt/bl/fj/kp/blfjkpular8tdansk1ykj7xnbkk.png
[30] Image: https://habrastorage.org/webt/hs/rn/7q/hsrn7qlbde5hdzlhilyjffdyqxc.png
[31] Python: https://www.python.org/
[32] Jupyter notebook: http://jupyter.org/
[33] Pandas: https://pandas.pydata.org/
[34] Seaborn: https://seaborn.pydata.org/
[35] Apache Hive: https://hive.apache.org/
[36] Источник: https://habrahabr.ru/post/344724/?utm_source=habrahabr&utm_medium=rss&utm_campaign=344724
Нажмите здесь для печати.