Оракул, скажи, кем я быть хочу

в 15:09, , рубрики: data mining, искусственный интеллект, машинное обучение, определение профессии, опросы, психология

Здравствуйте, читатели. Я хочу вам представить небольшое исследование, которые провели мы с моим другом полтора года назад, но в виду некоторых обстоятельств оформление затянулось до сего момента. Вопрос, который мы хотели рассмотреть, это можно ли построить такой классификатор, который помог бы молодым людям с выбором профессии.

TL;DR Провели опрос трех психологических тестов: Большая пятерка, эмоциональный интеллект, тест на профессию. Задали вопрос кем работают, нравится ли работа. Провели небольшой EDA. На базе тестов построили несколько классификаторов и лучший сравнили с тестом на профессию, ответы которого учитывались с нюансом. Датасет выложили в открытом доступе.

Введение

Началась эта история с размышлений о том, что грустно нынче от того, что много людей не знают, чему бы они хотели посвятить свою жизнь. Мне крупно повезло, поскольку для меня особо остро эта проблема никогда не стояла, она как-то сама разрешалась, но среди меня очень много людей, от которых я слышал о том, что они не понимают, чем заниматься, чтобы реализовать себя. Как мне видится, такие люди попадают в ловушку: поступают в университет, по принципу “куда возьмут”, если еще поступят, конечно. Отсиживают там пять лет, сдавая экзамены кое-как, со всякими сомнительными убеждениями, типа что им знания и специальность должны в рот затолкать, и под конец хорошо если диплом сами напишут. На выходе имеем человека, который в лучшем случае, безразличен к своей специальности, который ничего в ней не понимает. А где же здесь тут ловушка? Перечислю несколько, которые я сам наблюдал:

  • в 18 лет вполне возможно не знать, чем ты хочешь заниматься, особенно, когда у самого ветер в голове, да и часто подсказать-то вокруг некому. Зато все знают, что без образования — никуда, а парням еще и в армию.
  • поступив в универ, тебя затягивает студенческая жизнь, одной гранью из которой является отсрочка от полноценной самостоятельной жизни, давая время на тусовки, пьянки и игры. Человек, выбрав для себя такую грань только к последним курсам очнется и поймет, что вообще-то скоро работать надо.
  • даже если человек осознал, что ему не нравится специальность, ему сложно что-то сделать. Во-первых, куда девать курсы, которые он уже прошел, особенно, если хочешь пойти из программистов в дизайнеры, условно. Во-вторых, что скажут родители. В-третьих, специально для парней, сгорит отсрочка. А ведь еще после пар наступает пункт два. И в-четвертых, а если ошибешься с вновь выбранной специальностью?

Я убежден, что каждому человеку можно помочь найти то, что ему будет по душе и избавить его от этого мучительного вопроса, на который ошибочный ответ может стоить весьма дорого. Как это не банально, нужно просто найти такую деятельность, которая соответствует способностям человека. Если человеку дается какая-то деятельность, он в разумное время получает результат, а значит удовольствие. Со временем, он будет тратить больше времени на эту деятельность, становясь профессионалом, соответственно, быстро и качественно выполнять задачи общества. Получается, в интересах самого же общества заботиться о том, чтобы люди находили "свою" деятельность.

И вот однажды, рассуждая обо всем этом, мне пришла идея: давайте мы спросим людей, которые имеют работу, нравится ли им эта работа, кем они работают и попробуем составить их психологический портрет, а работы мы поделим на разные классы по каким-нибудь признакам.

Дальше, с помощью магии машинного обучения попробуем сделать классификатор, который будет предсказывать по психологическому портрету наиболее вероятную область.

Спойлер

Вообще, сначала я хотел классификатор именно профессий, но, начав опрос, быстро понял, что пока это нереально.

Сбор данных

Для того, чтобы реализовать мою идею, нужны были данные. Довольно быстро мы с другом придумали создать опрос в Google.Формах, но вот где его размещать — большой вопрос. Нам нужны были места, аудитория которых — рабочие люди. И это вело к некоторым проблемам:

  • в рабочее время, люди работают, а не отвечают на опросники;
  • в нерабочее время, люди либо идут на работу, либо, уже уставшие, приходят домой и им снова не до опросников;
  • вряд ли много ресурсов с большой аудиторией согласятся на бесплатное размещение опросника от каких-то там студентов.

Кроме этого, у нас получился довольно большой опросник. Встречались люди, которые так и писали, мол, слишком длинно, не буду проходить. Был еще вариант использования специальных площадок для опросов, но почему-то к ним доверия у меня нет, да и денег особо не было.

В итоге, мы остановились на нескольких ресурсах: группы в ВК, в которых предположительно состоят рабочие люди, как пример, банковские группы, российская имиджборда Двач, Woman.ru и др. В итоге, на всех ресурсах, кроме Двача, мы были либо забанены, либо просто не получили разрешения. Поэтому, пришлось работать с тем, что есть.

За неделю нам удалось собрать 263 ответа. Удивительно, но количество шутников было минимум. Они легко определялись по ответу в графе о поле — мы оставили возможность указать свое мнение. Еще некоторые считали долгом отписаться в треде о том, что намеренно "все испортили", поэтому мы определяли таких по времени прохождения теста и времени их поста в треде. Некоторые, кстати, шуткой только в этой графе о поле и ограничились, давая вполне нормальные ответы дальше. Под конец недели, наши треды начали банить, но нам повезло — видимо это была смена особо злого модератора, все обошлось одним днем.

Структура опросника

В начале опроса спрашивали возраст, нравится профессия или нет, с уточнением, что не по зарплате, соц. пакету, печенькам, а сама она, сама профессия, как вид деятельности, и период времени в годах, сколько человек на ней работает. К сожалению, мы не могли дать гарантии, что нас правильно поймут, читая вопрос о том, что нравится профессия или нет и в итоге, казусы случались. Я прошу читателей тоже остановиться и понять, что мы имели в виду. Далее, для того, чтобы составить психологический портрет, было предложено пройти три теста: тест большой пятерки, тест на эмоциональный интеллект и тест на профессию. В заключение, мы спрашивали вопрос “Если вам не нравится Ваша профессия, то кем бы Вы хотели работать?” с вариантами “Мне нравится моя профессия”, полем, чтобы ответить, какую именно профессию, а также интересный ответ “Я хотел бы вообще не работать”. Последним вопросом был “Кем вы еще работали от года и больше?” с полем для ответа и вариантом “У меня не было других работ”. Весь опросник содержит 111 вопросов.

По началу, мы хотели еще дать тест на IQ, но поняли, что тест тогда не пройдет никто, в силу описания категории рабочих людей. Плюс сам тест на IQ будет давать очень большие погрешности: результаты зависят от состояния головы — стрессы и усталость могут сильно на них повлиять.

Теперь расскажу немного о каждом тесте.

Тест Большой пятерки

Психологи очень долго не могут прийти к согласию о понятии личности. Существуют разные подходы и теории об ее изучении, базирующиеся на этих различных понятиях. Одна из идей состоит в том, что человеческая личность — это композит нескольких составляющих, называемых факторами. На протяжении долгого времени ученые выделяли разные факторы и создавали разные тесты для их измерения. Например, одним из таких тестов является MMPI, который был разработан в 30х годах прошлого века. Однако на сегодня, как мне показалось при исследовании темы, одним из правдоподобных и перспективных тестов является тест Большой пятерки, который, в прочем, тоже был разработан довольно давно – в 60х годах.

Итак, этот тест призван характеризовать личность человека. В данной модели предполагается, что личность человека можно разделить на пять низко коррелированных факторов. Перевода на вики я не нашел, поэтому, если кто знает, как будет правильно, напишите, пожалуйста.

  • Экстраверсия (Extroversion)- черта характера, показывающая, где ищется источник энергии — внутри индивидуума или в сообществе.
  • Доброжелательность (Agreeableness)- показатель того, насколько человек готов изменить свое поведение, чтобы угодить другим.
  • Добросовестность, сознательность (Conscientiousness) — способность быть честным в выполнении деятельности.
  • Невротизм (Neuroticism) — показатель эмоциональности.
  • Открытость опыту (Openness to Expirience) — показатель того, насколько человек открыт новому опыту, а также предрасположенности к интеллектуальным занятиям.

Мы использовали один из найденных в Интернете вариант на 50 вопросов по 10 на каждый фактор. Он был на английском, и мы его перевели на русский язык, что, вообще говоря, не совсем корректно, поскольку утверждения составляются с учётом психолингвистической особенностью языка.

Тест на эмоциональный интеллект или EQ-тест

Эмоциональный интеллект отражает (насколько это возможно) способность человека распознавать эмоции у себя и других, способность к самоконтролю, а также, понимать мотивацию и намерения других, что существенно влияет на его возможность строить эффективные коммуникации с другими людьми. Это понятие появилось вследствие того факта, что, в общем, интеллект — это не только уровень IQ. Есть книжка Дэниела Гоулмана Emotional Intelligence, в которой он описывает историю развития теории, описал современное состояние теории и предложил свою модель. Она также состоит из пяти осей

  • Самопознание (Self-Awareness) — способность понимать свои эмоции и свою мотивацию при принятии решений, определять свои слабые и сильные стороны, а также свои цели и жизненные ценности.
  • Саморегуляция (Self-Management) — способность контролировать свои эмоции.
  • Мотивация (Motivation) — способность стремиться к достижению цели ради факта ее достижения.
  • Эмпатия (Empathy) — способность учитывать чувства других людей при принятии решений, а также способность сопереживать другим людям.
  • Социальные навыки (Relationship Management) — способность выстраивать отношения с людьми, манипулировать людьми, подталкивать их в желаемом направлении.

Тест состоит из 25 вопросов, по пять на каждый фактор.

Спойлер

Внезапно, выяснилось, что мы забыли добавить один вопрос, поэтому результат для одного фактора будет отличаться.

Тест на профессию

Этот тест разработан Е. А. Климовым. В основе этого теста лежит разделение типов личностей на 5 психотипов, которые соответствуют роду деятельность. В принципе, этот тест пытается сделать ровно то, что хочу и я. Думаю, у некоторых читателей возник вопрос: зачем изобретать велосипед, когда есть этот тест? Вот как раз, одна из целей этого исследования, выяснить, будет ли этот тест точнее получившегося классификатора. Кроме того, один из минусов теста, является то, что в нем можно набрать равное количество баллов в нескольких психотипах, что, конечно, лучше, чем ничего, но хотелось бы однозначности. Классификатор же, как раз будет выдавать только одну наиболее вероятную подходящую область или можно посмотреть и весь список, ранжированный по вероятностям.

Мы будем использовать психотипы из теста, как целевую метку для классификатора, вот их список с примерами профессий.

  • Человек-природа — микробиолог, геолог, овощевод, зоотехник, ветеринар, эколог, агрохимик, лесовод.
  • Человек-техника — газосварщик, монтажник, токарь, инженер, конструктор, слесарь, водитель, механик, машинист, технолог.
  • Человек-знаковая система — переводчик, программист, бухгалтер, экономист, специалист по маркетингу, геодезист, телефонист, налоговый инспектор, чертежник, аналитик.
  • Человек-искусство — журналист, художник, модельер, закройщик, ювелир, дизайнер, архитектор, парикмахер, актер.
  • Человек-человек — врач, медсестра, официант, юрист, следователь, агент по рекламе, экспедитор, инспектор ГИБДД.

Собранные ответы респондентов в графе про профессию, мы вручную распределили по этим категориям. Мы старались сделать без ошибок, но некоторые профессии далеко не очевидно куда относить, как например, военный. Были также, ответы, в которых также было написано IT. Но IT большое, поэтому такие ответы отмечались, как неизвестные. Так что про чистоту целевой переменной еще можно спорить.

Тест состоит из 30 вопросов по 6 вопросов на каждую область.

Практика

Постановка задачи и EDA

Итак, теперь стоит окончательно сформулировать задачу полностью. Давайте посмотрим на наши данные. Мы начнем с распределений возраста, пола, целевой переменной и времени занятости.

Оракул, скажи, кем я быть хочу - 1

Видим, что максимум распределения приходится на возраст 20-25 лет, что соответствует людям, которые только встают на свой профессиональный путь. Удивительно много оказалось людей, которым около 30 лет. Видим, также, что подавляющее большинство опрошенных — это мужчины. В малых количествах присутствуют шутники. По времени занятости, видно, что большинство работает на своей работе не менее года, однако другие варианты тоже не отстают. Картина, в целом, соответствует возрасту опрошенных. Кстати, для чего мы спрашивали это? Мы сделали предположение по чисто субъективному опыту, что за время не менее года, любая эйфория от принятия на работу должна пройти (или наоборот — человек может понять, что не так уж и плохо он устроился) и человек сможет твердо сказать нравится ли ему профессия или нет. Что касается целевой переменной, то мы ее закодировали для более удобного использования. Код такой
1 — Человек-природа
2 — Человек-техника
3 — Человек-знаковая система
4 — Человек-худ. образ
5 — Человек-человек
6 — Невозможно определить профессию
Как можно видеть, в данных сильный дисбаланс в сторону техников и знаковиков (так мы будем называть людей в профессиях Человек-Знаковая система), и почти отсутствуют представители профессий, связанных с природой. Мы решили разрабатывать классификатор только для техников и знаковиков, в силу хоть какой-то представительности и не такого резкого дисбаланса.
Классификатор будет бинарным: будет классифицировать принадлежность человека к знаковикам или техникам.

Спойлер

Конечно, в реальности, этот классификатор работать не будет, потому что у нас есть еще три варианта, как минимум. Тестировать мы будем на отложенной выборке из людей техников и знаковиков.

Несколько слов по поводу теста на профессии. Как мы отмечали выше, он может дать несколько психотипов в результате, что очень здорово усложняет и его интерпретацию для нас. Мы сделали три варианта подсчета результатов:

  • Жесткий вариант — считает только те, где есть только один максимальный прототип. Если несколько, то помечается ошибочным. Т.е. на стадии подсчета результатов, эта пометка будет влиять на результат, как неправильный. Это важный момент.
  • Мягкий вариант — считает только те, где есть только несколько прототипов. Если один, то помечается ошибочным.
  • Совместный вариант — считает предыдущие два без каких-либо пометок.

Мы для простоты возьмем только жесткий вариант. Честно, мы не стали долго думать, как можно интерпретировать результаты мягкого или совместного варианта — кажется просто некорректным сравнивать результат классификатора, который максимально вероятный и она такой один, с мягким результатом теста, который, получается, дает равновероятную оценку для нескольких психотипов.

В итоге, вот два вопроса, на которые мы постараемся ответить:

  • На сколько точно жесткие результаты теста на профессию совпадают с текущей профессией, при условии, что текущая профессия нравится (для знаковиков и техников).
  • На сколько точно результаты классификатора совпадают с текущей профессией, при условии, что текущая профессия (техника или знаковика) нравится.

Давайте посмотрим на еще кое-какие интересные моменты. Взглянем на круговую диаграмму столбца об опыте предыдущей работы и “Если вам не нравится Ваша профессия, то кем бы Вы хотели работать?”

Оракул, скажи, кем я быть хочу - 2

Ожидаемо, что для больше чем половины респондентов не имели другого опыта, в виду того, что основную массу опрошенных составляют люди в возрасте 20-25 лет. Интересно, что почти половина, респондентов ответила, что им нравится их текущая профессия, почти треть ответила, что не хотели бы работать и лишь только 15 процентов не знают, кем бы они хотели работать.
Стоит отменить, что те, кто не хотят работать — очень интересны. Главная гипотеза, которую мы выдвигаем, что человек просто не на своем месте. Конечно, может он просто устал. Есть даже такие, кто отметили, что им нравится профессия, но они предпочли бы не работать.

Также, количество респондентов, которым нравится текущее место и которые не работали раньше: 83, а количество респондентов, которым нравится текущее место, но которые работали раньше: 41. Всего респондентов, которые ответили, что им нравится текущее место работы — 124. Получается, что большинство опрошенных выбрали любимую (или полюбившуюся, или они думают, что любят) профессию с первого раза. Вопрос, который стоит поставить, будет ли так всегда.

Мы посчитали все тоже самое, но с окнами в 20-25 лет и больше 25. Получилось, вот что

Нравится текущая, 20-25 лет Нравится текущая, >25 лет
Работали раньше 11 22
Не работали раньше 32 32

Т.е. после 25 лет, больше человек сменили профессию.

Еще интересно, что количество людей, которые не хотят работать до 25 равно 22, а вот после уже 32.

Давайте попробуем сформулировать типичную картину респондентов с Двача: молодые люди в возрасте от 20 до 25 лет, которые только ступили на профессиональный путь и каждому второму нравится его профессия, при этом вероятно, что он сразу попал на такое место. При этом, это скорее всего либо программист(знак), либо системный администратор(техник).

И еще некоторые мысли:

  • Датасет представляет из себя профиль для мужчин.
  • Удивительно мало людей, которые не знают вообще, чем они хотят стать. Скорее всего, это просто выходит за рамки данной аудитории и будет актуально для тех, кому меньше двадцати. Можно считать успехом, что почти половина опрошенных, это люди, которым нравится их профессия — наша изначальная цель.
  • Есть гипотеза о том, что люди, которые ответили, что они вообще не хотели бы работать, находятся просто не на своем месте, хотя встречаются люди, которые ответили, что им нравится их профессия в начале опроса, а под конец ответили, что хотели бы не работать.
  • Как изменяется отношение к профессии с течением времени. Это очень сложный вопрос, который выходит за рамки данной статьи. Здесь можно отметить существование, например, выгорания у программистов. Что происходит в голове в этот момент? Кардинально изменяется структура психотипа?

Давайте теперь взглянем на распределения тестов:

Оракул, скажи, кем я быть хочу - 3

В описании к Большой пятерки было сказано, что факторы стремятся к нормальному распределению. По виду, они почти все колоколообразные, так же, как у распределений эмоционального интеллекта. Возможно, при большем количестве данных, они действительно будут походить на нормальное. Распределение фактора relationship_management так резко отличается скорее всего потому, что мы пропустили один вопрос по этому фактору. Интересно, что мы наблюдаем довольно большое смещение у распределения Opennes to Expirience. Причудливые распределения мы наблюдаем в распределениях профессий. Возможно, какие-то из них, это смеси распределений, что может говорить о невыделенных случайных переменных, что дает простор для дальнейшего исследования подобных тестов.

Теперь давайте посмотрим на корреляцию факторов внутри каждого теста:

Оракул, скажи, кем я быть хочу - 4

В тесте эмоционального теста видим заметную корреляцию между факторами. Особенно хочется отметить между мотивацией (motivation) и осознанностью (self_awareness) и между мотивацией и саморегулированием (self_managemnt), что в принципе имеет объяснение, особенно второе: человек, который дисциплинирован, может добиться поставленной цели. Другой пример эмпатии (empathy) и осознанности можно объяснить тем, что для осознания себя, ты должен как бы посмотреть на себя со стороны, и вот когда ты смотришь на себя со стороны, включается эмпатия.
В Википедии со ссылками на статьи сказано, что факторы Большой пятерки хоть и не ортогональны, но в среднем, равны 0,26, а по отдельным шкалам, не больше 0,36. Тест проводился на студента Беркли в количестве 826 человек. У нас же получилось, в среднем, корреляция равна 0,44, а максимум 0,63 между доброжелательностью и экстраверсией. Это можно попытаться объяснить тем, что раз человек получает энергию от внешних источников, людей, то ему нужно быть и более легким, и комфортным в общении с другими людьми.
Также, можно по изучать тепловую карту между всеми результатами трех тестов

Оракул, скажи, кем я быть хочу - 5

Сразу бросается в глаза, что для профессий, связанных с человеком, мы имеем очень заметную корреляцию для всех факторов эмоционального интеллекта, а также экстраверсии и доброжелательности из теста большой пятерки. Для наших двух профессий корреляция идет для фактора открытости к новому, больше для знаковиков. Невротизм (Neurotism) имеет также заметную корреляцию с факторами EQ-теста, особенно для самоуправления.

Теперь давайте подойдем ближе к данным, на которых будем строить классификатор. Ещё раз напомним, что мы брали только техников (значение ноль) и знаковиков (значение один). Давайте посмотрим на парные графики. Это даст нам оценку распределений в зависимости от целевой переменной, а также мы сможем наглядно изучить паттерны в признакам.

Парные графики для EQ-теста относительно целевой переменной

Оракул, скажи, кем я быть хочу - 6

Парные графики для теста Большой пятерки относительно целевой переменной

Оракул, скажи, кем я быть хочу - 7

Парные графики для теста профеесий относительно целевой переменной

Оракул, скажи, кем я быть хочу - 8

Как бы я ни старался, но лично я не вижу никаких особых паттернов, в частности, какой-либо приметной линейной разделимости. Кроме этого, видим, что условные распределения очень плотно пересекаются. Чтобы разнообразить наши данные, в одном из сценариев мы построим полиномиальные признаки второй степени, отфильтруем их по корреляции к целевой переменной и обучим классификатор.

Построение классификаторов

В качестве моделей были выбраны логистическая регрессия, как базовая и RandomForest, поскольку он использует бэггинг, что может помочь в условиях маленького набора данных, и хорошо подходит для смешанных типов данных.

Всего 4 сценария построения. В первом мы просто взяли результаты трех текстов (всего 15 признаков). Во втором, мы взяли полиномиальные признаки от результатов теста, отфильтровав их. В третьем, мы к результатам теста подключили ответы на вопросы на все тесты. В заключительном, четвертом, мы взяли полиномиальные признаки от тестов и вопросов. Ниже представлена таблица сравнения сценариев и классификаторов. В качестве результатов представлена матрица ошибок и точность классификатор со стандартным отклонением, которая была получена с помощью CrossValidation на всей выборке по 3 фолда.

Linear Regression Random Forest
Test results only Оракул, скажи, кем я быть хочу - 9 Acc: 0.60 ± 0.05 Оракул, скажи, кем я быть хочу - 10 Acc: 0.60 ± 0.08
With test only, with polynom Оракул, скажи, кем я быть хочу - 11 Acc: 0.63 ± 0.04 Оракул, скажи, кем я быть хочу - 12 Acc: 0.57 ± 0.05
With questions Оракул, скажи, кем я быть хочу - 13 Acc: 0.55 ± 0.04 Оракул, скажи, кем я быть хочу - 14 Acc :0.60 ± 0.04
With questions with polynom Оракул, скажи, кем я быть хочу - 15 Acc: 0.70 ± 0.01 Оракул, скажи, кем я быть хочу - 16 Acc: 0.70 ± 0.04

Видно, что все классификаторы имеют тенденцию хорошо различать знаковиков, но очень плохо техников. Возможно, это связано с корреляцией между ними, которая, в принципе, имеет место быть. Ну конечно, еще может быть связано с тем, что мы не тратили много времени на дебагинг и инженерию признаков. По результатам видно, что самым лучшим сценарием оказалось использование результатов теста, ответов на вопросы и их полиномиальную комбинацию. Мы отфильтровали все признаки, корреляция которых с целевой переменной меньше 0.3 и в результате осталось только 13 признаков. Давайте взглянем какие веса этим признакам присвоила линейная регрессия.

value name
0 0.916530 Q11 Q92
1 0.739014 Openn Q11
2 0.611891 Neuro Q15
3 0.418799 Q11 Q32
4 0.124221 Neuro Q11
5 0.019474 Q11 Q26
6 0.006716 empathy Q7
7 0.001681 Q7 Q46
8 -0.152755 sign Q11
9 -0.156314 empathy Q52
10 -0.522895 empathy Q27
11 -0.614839 Q3 Q7
12 -0.961098 self_management Q11

Вопросы были закодированы в формат Q# для более удобного просмотра датафреймов. Вот расшифровка вопросов, вошедших в признаки (в качестве шпаргалки, показано какие вопросы к какому):

EQ-test Q0 — Q23
big five test Q25 — Q75
prof test Q74 — Q103

Q3: Я могу точно описать, что я чувствую
Q7: Я чувствую себя несчастным
Q11: Моя карьера движется в правильном направлении
Q15: Мои коллеги необщительны
Q26: Я всегда готов к неожиданным ситуациям
Q27: Я не стрессоустойчивый
Q32: Я почти всегда спокоен
Q46: Я предпочитаю выполнять всю работу по дому сразу
Q52: Я легко расстраиваюсь
Q92: Я могу ясно излагать свои мысли в письменной форме

Q92 вопрос из теста профессий, который отвечает за область знаковиков.

Сравнение классификатора и теста

Итак, для сравнения мы будем использовать четвертый сценарий линейной регрессией. Сравнение проводилось десять раз, и каждый раз менялся состав обучающей и тестовой выборки. Напомню, что результат теста брался жестка — допускались только те варианты, где было однозначно определен психотип. В результате получился вполне себе неплохой результат

Accuracy
Profession test 0.25 ± 0.021
Classifier 0.71 ± 0.055

Выводы и варианты развития

Как мы можем видеть, использование классификаторов даже в самом простом варианте без особого инжиниринга признаков и дебага сильно обгоняет тест, где этот тест дает однозначные ответы. Конечно, мы не можем сказать, что будет, если использовать все психотипы профессий сразу, но результатом этой работы и было выяснить стоит ли игра свеч. Теперь можно попробовать поиграться с оставшимися психотипами в датасете или улучшить рассмотренные классификаторы для лучшего разделения знаковиков и техников.

Мы также не рассмотрели множество интересных вещей, которые еще можно выжать из датасета, например, мы не касались ощущений людей, которые назвали профессию, которая была бы им по душе. Другой пример, мы не трогали отрицательные примеры, т.е. примеры, в которых люди ответили, что им не нравится их профессия. Также, ради интереса, можно попробовать использовать в качестве результатов теста все варианты и смотреть по вхождению данного психотипа в результат теста.

С точки зрения психометрии, будет интересно изучить взаимосвязи между тестами, интерпретация полиномиальных признаков, а также присвоенные веса моделями. Выяснить, почему распределения теста на профессию не унимодальны.

Кроме того, в вопросе выбора профессий можно много чего изучить и проверить:

  • как показатели тестов могут меняться с возрастом. Предполагается, что эти тесты нужны в 16-18 лет, но что если показатели со временем будут изменяться? Один из авторов данной статьи имеет результаты опросника 16PF за 17 и 20 лет — результат отличается значительно, хотя склонность к исследовательской деятельности никуда не девалась
  • Как уже было отмечено, что происходить при выгорании. У нас есть гипотеза, что человек вероятнее будет менять профессию в одном домене, т.е. его психотип останется. Но если он меняется, то это еще интереснее.
  • Мы взяли пять психотипов, как целевые переменные, потому что у нас было мало данных, на самом деле, профессии в каждой области можно поделить еще на три составляющих, что может дать более четкий ответ на вопрос о выборе профессии, но он требует гораздо больше данных.
  • Мы не просили респондентов проходить тесты на IQ и на память, которые могут дать еще больше интересной информации.

Мы призываем всех заинтересованных психологов подключиться к этим исследованиям. Нам было сложно собрать даже эти 260 человек и то, выборка характеризует исключительно посетителя Двача. Для того, чтобы хотя бы завершить этот простой классификатор, нужно гораздо больше данных, особенно для других профессий и у нас просто нет ресурсов для сбора этих данных. Также, мы призываем датасаентистов достать все, что можно из нашего скромного датасета.

Материалы, включая, описания тестов, ноутбук и данные доступны на гитхабе. Если вы запутаетесь в этом не очень чистом коде, пожалуйста, напишите в issues.

Спасибо моему другу, Попову Фёдору, студенту МАИ, за помощь в организации теста и обсуждениях на протяжении исследования.

P.S. Мы просим прощения у людей, которые ждали результаты тестов, но так им их и не предоставили. Нам правда очень стыдно.

Автор: Буянов Игорь

Источник


* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js