Считаем деньги. Выбор метрики в кредитном скоринге

в 20:26, , рубрики: визуализация данных, кредитный скоринг, машинное обучение, финансы в IT

Когда у вас есть какая-то система принятия решений по заемщику и нужно ее улучшить, то классическая постановка задачи в этом случае обычно звучит так. «Снизить просрочку, не уменьшив уровень одобрения». Либо: «Повысить уровень одобрения, не увеличив просроку». Именно в такой постановке презентуют свои решения вендоры, предоставляющие скоринговый бал. Такую же формулировку можно услышать на конференциях по скорингу, где презентуют свои достижения инхаус разработчики.  К сожалению, никто подробно не раскрывает, что именно понимается под терминами просрочка и уровень одобрения.
Успешный результат работы презентуют так:
Считаем деньги. Выбор метрики в кредитном скоринге - 1

Разберемся в терминах. 
Просрочка — количество невозвращенных кредитов, поделенное на количество выданных кредитов.
Уровень одобрения — количество одобренных заявок на кредит, поделенное на количество поступивших заявок.

Возможна ли ситуация, когда при решенной задаче в такой постановке, просрочка в денежном выражении стала выше? 

Ответ

Возможна!

Качество скоринга может различаться на больших и малых суммах. Заявки на большие суммы модель скорит хуже, чем заявки на маленькие суммы. Такой кейс реально может встретиться в жизни. Подробно был разобран в статье
Считаем деньги. Выбор метрики в кредитном скоринге - 2
В такой ситуации, просрочка в деньгах может оказаться хуже. 
Допустим, мы не совсем тупые, и сразу построили график просрочки как штуках, так и деньгах. И провели анализ качества модели в разных срезах. И получили вывод, что просрочка снизилась и в штуках, и в деньгах. А модель одинаково хорошо скорит заявки на большие и на маленькие суммы. Также увидели на графиках доходности улучшение.
Доходность — денежная сумма всех платежей по кредиту, поделенная на выданную сумму кредита. В финансовых отчетах строят это значение по календарной когорте клиентов. Календарная когорта — группа клиентов, получивших кредит в одном месяце. Вот так выглядит график доходности в динамике. 
Считаем деньги. Выбор метрики в кредитном скоринге - 3
По оси Х — количество дней с момента выдачи займа. Видим, что на 90-й день после выдачи займа, апрельская когорта обгоняет  мартовскую. Просрочка снизилась, доходность выросла. Премия уже у нас в кармане. Идем в кабинет к начальству. Говорим: «Здравствуйте, я за премией!» 
Может ли быть так, что уровень одобрения не изменился, просрочка снизилась, доходность выросла, а денег мы зарабатываем меньше?

Ответ

Может!

Непосредственно сам скор и его сравнение с порогом отсечения не является конечным решением о выдаче кредита. Конечное решение включает в себя определение суммы кредита, которую можно выдать. Одобрить можно меньшую сумму, чем запросил клиент. Или большую. В этом случае уровень одобрения уже нельзя трактовать так однозначно, как мы это делали ранее. Теперь уровень одобрения может быть представлен в денежном выражении. И к уровню одобрения в штуках добавляется понятие средний чек. Нарисуем уровень одобрения в денежном выражении. Это отношение одобренной суммы на кредит к запрошенной денежной сумме в заявке.
Считаем деньги. Выбор метрики в кредитном скоринге - 4
На практике можно управлять уровнем просрочки не только с помощью скора. Но и с помощью метода определения суммы кредита. Это очень мощный инструмент. Мы проводили исследования того, как влияет резка суммы на невозврат для клиентов с одинаковым уровнем риска, одинаковым скором (Подробно об этом можно почитать в статье). Ниже график зависимости уровня дефолта от скора для одной и той же модели. 
Считаем деньги. Выбор метрики в кредитном скоринге - 5
Слева — одобрялась желаемая сумма. Справа — сумма резалась в зависимости от скора. Еще раз отметим — на графиках справа и слева одна и та же модель, один и тот же скор. Но преобразование скора в конечное решение — определение суммы кредита, которую можно одобрить, производилось по-разному. Этот трюк позволяет вам прийти в компанию, которая борется над уменьшением уровня просрочки, за 5 мин написать таблицу соответствия скора и одобренной суммы и вы получите снижение просрочки в тот же день.
Замоделируем ситуацию, когда модель одинаково хорошо скорит заявки на большие и на маленькие суммы. Уровень одобрения в штуках повысился. Уровень одобрения в деньгах повысился. Уровень просрочки в штуках не увеличился. Уровень просрочки в деньгах не увеличился. Может ли быть теперь такая ситуация, когда мы все равно зарабатываем меньше? 

Ответ

Может!

Уровень одобрения — не то же самое, что и уровень выдач. Когда мы одобряем клиенту кредит, не факт, что он им воспользуется. Когда мы значительно режем сумму хорошим клиентам, они отказываются от одобренного кредита и обращаются в другое место, где им одобрят желаемую сумму сразу. Возникает отток клиента. А у нас добавляется еще два показателя — забираемость и уровень выдач. 
Забираемость — это процент выданных кредитов среди одобренных. Уровень выдач — количество выданных кредитов поделенное на количество поступивших заявок (аналогично можно в денежном выражении выразить). 
Высокий уровень одобрения в тандеме с жесткой политикой определения суммы кредита может дать эффект низкой конверсии заявок в выдачу. С одинакового количества поступивших заявок будет выдаваться меньше денег. Однако процент просрочки и уровень одобрения будут выглядеть лучше, чем  предыдущая версия системы. 
Допустим у нас улучшились все перечисленные показатели. Но понять сколько мы зарабатываем мы все равно не можем. Доходность показывает как выплаченные кредиты перекрывают невозращенные кредиты. Эта величина отражена в процентах. Но процент от миллиона и процент от 10 копеек — это разные проценты.
В итоге мы пришли к варианту, когда можем достаточно подробно мониторить показатели нашей системы принятия решений. Имеем много различных графиков и показателей, но не можем сказать сколько мы зарабатываем, не можем сравнить модели в АБ-тесте, т.к. не можем выразить их качество одним числом. И в итоге ответить на вопрос, лучше мы сделали или хуже по критерию «заработать больше денег».
Попробуем выразить эффективность системы принятия решения одним числом и сравнить две системы. У нас есть 4 показателя, которые исчерпывающе описывают нашу систему. Напомню, как выглядит снижение размерности показателей:
шаг 1

  • доходность 
  • уровень одобрения в штуках
  • средний чек
  • забираемость

шаг 2

  • Доходность 
  • уровень одобрения в деньгах = (уровень одобрения в штуках * средний чек)
  • забираемость

шаг 3

  • Доходность 
  • уровень выдач в деньгах = (уровень одобрения в штуках * средний чек * забираемость)

Таким образом всего осталось 2 показателя. Нам же нужен какой-то один интегральный показатель, который позволит без труда выбрать нужную модель. Есть ли такой показатель?

Ответ

Есть! — «Доход с заявки»

Это сумма всех платежей с процентами поделенная на количество поступивших заявок. Такой интегральный показатель включает в себя средний чек, уровень одобрения в штуках, собираемость в процентах и конверсию одобрения заявки в выдачу. Задача решена. Смотрим на этот показатель, видим, что он улучшился, идем за премией.
Может ли теперь быть такая ситуация, когда модель с большим доходом с заявки приносит меньше денег?

Ответ

Может!

Мы рассматриваем деньги и доходность в разрезе первой заявки клиента и его первого кредита. И руководствуемся принципом сиюминутной маржинальности. Однако, если выстраивать с клиентом долгосрочные отношения можно зарабатывать не только с первой выдачи кредита этому клиенту, но и с его последующих обращений. Существует такое понятие как конверсия нового клиента в повторного и LTV (life-time-value). И может получиться так, что лучшая модель по критерию доход с заявки может оказаться хуже в долгосрочной перспективе, т.к. будет отметать много клиентов с высоким LTV. Т.е. в разрезе одной заявки можно получить такую когорту клиентов (клиентом с одинаковым скором/уровнем риска), у которых доходность с заявки вообще отрицательная. Отрицательная! Но если понаблюдать за этими клиентами в течение 6 месяцев, можно увидеть, что они окупают отрицательную доходность своей когорты уже на второй-третьей выдаче. С такой ситуацией мы тоже сталкивались на практике.
Таким образом доходность можно отразить не в разрезе первого займа, а по всем займам когорты клиентов в течение 6 мес.
Считаем деньги. Выбор метрики в кредитном скоринге - 6
Видно, что выдачи по когорте могут окупаться через 3 мес, не смотря на то, что первый займ убыточный с доходностью -30%. У нас возникает такое понятие как срок окупаемости, который на графике обозначен красной линией 3 мес.
Мы можем оперировать отрицательной доходностью с заявки и окупаемостью в течение некоторого количества времени 6-12 мес. На практике выдавать займы с отрицательной доходностью на первой выдаче можно. При такой стратегии выбор модели с большей доходностью с заявки не является оптимальным. Теперь критерием выбора становится показатель — максимальная доходность с когорты в течение 6 мес. Оптимальной становится модель, дающая больший суммарный LTV внутри когорты в течение 6 мес. Выбор модели с меньшей доходностью с заявки, но большим LTV практически невозможен по причине долгого времени проведения теста. Мы можем пустить небольшую часть трафика на худшую модель в надежде увидеть больший LTV через полгода-год. Однако для этого у нее должен быть больший уровень одобрений в штуках. Должна быть обеспечена маршрутизация клиентов участвующих в АБ-тесте на эту модель. Плюс если через полгода-год выяснится, что LTV нам важнее и мы хотим переключить весь трафик на лучшую по LTV модель, необходимо, чтобы качество модели было устойчивым во времени и модель не «протухла» к этому времени. Однако, за год можно успеть сильно прокачать модель по доходности с заявки, не беспокоясь о LTV. В таких динамичных внешних и внутренних условиях — внутренняя разработка, новые продукты, новые модели, изменения законодательства, LTV становится просто отчетностью для справки. Мы не можем его использовать как показатель для выбора наилучшей модели. 
Справедливости ради, стоит добавить, что в этой схеме не учитываются расходы. Которые включают в себя обслуживание сбора задолженности и стоимости привлечения трафика. Эти параметры могут зависеть от уровня просрочки, уровня одобрения, конверсии нового клиента в повторного, и среднего чека.

Дмитрий Горелов
telegram: datasanta

Автор: datasanta

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js