多分类的风险评分数据实操,助您中小微业务稳人一步

在信贷领域中,根据客户性质的不同,可以分为C端个人与B端企业两大类产品,体现在产品的申请条件、业务范围、风控体系、数据维度等方面,二者有着很大的区别。但是,从风险识别或价值营销角度来考虑,个人信贷与企业信贷在业务场景上有比较多的相似之处,例如风险评分、信用评级、价值分层、客户画像等。其中,个人信用评级的风控应用在信贷风险评估、客户精细管理等方面发挥着很好的作用,而针对中小微企业信贷业务同样也可以实现信用风险评级的场景,这在实际业务中是非常有价值的。

对于信用风险评级,我们在业务场景中经常采用二分类模型来预测客户的风险概率,然后通过概率区间划分得到不同的风险等级,从而实现客群的信用风险评级,这个思路在实际应用中是可行的,但从模型角度理解仍然为二分类模型,仅仅是将模型预测结果按照业务需求转换为多分类标签。为了更精准化实现不同信用评级的业务分层,通过多分类模型训练并评估输出多个预测标签,是更满足实际业务场景的。因此,本文围绕以上业务场景,来介绍下采用多分类决策树集成学习模型来实现中小微企业的风险信用评级。

1、案例场景概况

我们先来熟悉下案例场景的整体业务需求以及样本分布情况,某商业银行由存量小微企业数据库中取出一份样本数据,包含3000条样本与8个特征字段,部分数据样例如图1所示,其中ID为样本主键,Y为目标变量,X01~X08为特征变量,具体特征字段如图2所示。对于特征标签字段Y,其取值有A、B、C、D共4种情况,代表不同的信用风险等级,数据为金融机构方拥有,而特征变量X01~X08均为三方数据机构方引入。本场景业务需求是通过以上样本数据建立一个企业多分类预测模型,以实现在业务上对企业风险的信用评级。

多分类的风险评分数据实操,助您中小微业务稳人一步

编辑

添加图片注释,不超过 140 字(可选)

图1 样本数据

多分类的风险评分数据实操,助您中小微业务稳人一步

编辑

添加图片注释,不超过 140 字(可选)

图2 特征字典

针对图1的样本数据,采用describe()函数探索数值型特征(float、int)的描述指标,而对于字符型特征(varchar)可通过频数汇总将其数据分布输出,结果分别如图3、图4所示。

多分类的风险评分数据实操,助您中小微业务稳人一步

编辑

添加图片注释,不超过 140 字(可选)

图3 数值型特征描述

多分类的风险评分数据实操,助您中小微业务稳人一步

编辑

添加图片注释,不超过 140 字(可选)

图4 字符型特征描述

2、数据分析处理

由于特征变量X04与目标变量Y 的取值类型均为连续型,且本案例采用的模型算法为决策树分类模型(XGBoost),不能直接支持字符类型的特征输入,因此需要将其进行编码转换,常用的方式有onehot编码、label编码、mean编码等。这里我们采用label编码来实现,具体过程如图5所示。

多分类的风险评分数据实操,助您中小微业务稳人一步

编辑

添加图片注释,不超过 140 字(可选)

图5 特征标签编码

在模型训练之前,我们将建模样本数据按照7:3比例拆分为训练样本与测试样本,通过训练样本数据来拟合学习模型,然后在测试样本数据上预测结果标签,从而分析模型的泛化应用效果,数据拆分实现过程如图6所示,函数train_test_split()的参数test_size为拆分比例,random_state为随机种子(相同数字可以保证拆分数据一致)。

多分类的风险评分数据实操,助您中小微业务稳人一步

编辑

添加图片注释,不超过 140 字(可选)

图6 样本数据拆分

3、模型训练预测

当建模样本处理完成后,接下来我们采用XGBoost树模型算法来实现多分类模型。在XGBoost模型的算法中,多分类任务可以通过参数objective='multi:softprob'来实现,最终结果可以输出样本属于各类标签的概率值,然后根据概率值大小决定所属类别标签。现通过XGBoost多分类算法来进行模型拟合训练,并对测试样本数据进行预测,同时输出样本的预测概率(pred_Y_proba)与标签结果(pred_Y),具体实现过程如图7所示。

多分类的风险评分数据实操,助您中小微业务稳人一步

编辑

添加图片注释,不超过 140 字(可选)

图7 多分类模型实现

模型在测试样本数据的预测结果样例如图8所示,其中字段pred_A、pred_B、pred_C、pred_D取值分别代表样本预测为对应类别(A~D)的概率,字段label为模型最终预测结果的类别标签,其逻辑为取A、B、C、D各类别预测概率的最大值,例如图8的第1条样本,预测结果概率pred_A>pred_D>pred_B>pred_C,则最终预测信用等级为A。

多分类的风险评分数据实操,助您中小微业务稳人一步

编辑

添加图片注释,不超过 140 字(可选)

图8 模型预测结果

4、模型性能评估

当模型训练完成后,为了评估模型将来在实际业务中的可用性,需要通过某些模型指标来进行评价。对于二分类模型,我们可以通过构建二维混淆矩阵,很容易得到Accuracy(准确率)、Precision(精确率)、Recall(召回率)、F1-score(F1分数)等模型性能指标。对于多分类模型,由于混淆矩阵是多维的,若获取模型整体Precision、Recall、F1-score等指标,需要针对每个类别进行单独计算,然后来综合指标进行评价。下面我们先来分析下测试数据集各类别的真实标签(y_true)与预测标签(y_pred)的分布,实现过程与输出结果分别如图9、图10所示。

多分类的风险评分数据实操,助您中小微业务稳人一步

编辑

添加图片注释,不超过 140 字(可选)

图9 多分类混淆矩阵实现

多分类的风险评分数据实操,助您中小微业务稳人一步

编辑

添加图片注释,不超过 140 字(可选)

图10 多分类混淆矩阵结果

多分类模型的评估最有效的方式是综合考虑A、B、C、D的综合预测性能,但这里的关键是如何来衡量“平均”指标,在python语言中可以通过sklearn库的3种功能来实现,分别Macro-average、Weighted-average、Micro-average,现简要介绍如下:

(1)Macro-average:赋予所有类别具有相同的权重,将不同类别的评估指标(例如Precision、Recall、F1-score等)相加然后平均;

(2)Weighted-average:赋予所有类别具有不同的权重,权重大小根据类别的真实标签分布比例确定),每个类别的指标乘权重后再进行相加;

(3)Micro-average:将每个类别的混淆矩阵指标TP、FP、TN、FN分别相加,然后根据二分类的指标公式推出。

在实际场景中,Weighted-average与Micro-average的方法较为常用,接下来我们采用以上3种方法来得到本文多分类模型的评价指标Precision、Recall、F1-score,具体实现过程如图11所示,输出结果如图12所示。

多分类的风险评分数据实操,助您中小微业务稳人一步

编辑

添加图片注释,不超过 140 字(可选)

图11 多分类模型评估

多分类的风险评分数据实操,助您中小微业务稳人一步

编辑

添加图片注释,不超过 140 字(可选)

图12 多分类模型指标

从以上结果可以看出,不同方法下的模型评估结果在指标表现上还是有一定差异,在实际业务场景中,可以优先采用Weighted-average与Micro-average的方法。此外,模型性能的提升可以采用交叉验证和网格搜索的方法来进行参数调优,以较大程度获取更优的模型指标结果。

5、模型部署应用

经过模型训练、模型测试、模型评估等阶段工作,结合实际模型开发经验,模型的性能表现可以满足实际业务需求后,接下来便是模型应用的环节。假设某企业向银行信贷产品发起申请时,银行可以通过企业申请以及三方机构获取企业的相关数据,然后采用线上风控系统的企业信用评级模型对其进行预测,从而得到企业的模型评级结果(A/B/C/D),此模型应用的实现过程示例如图13所示。

多分类的风险评分数据实操,助您中小微业务稳人一步

编辑

添加图片注释,不超过 140 字(可选)

图13 模型应用预测

当本案例的企业信用评级模型部署在小微企业信贷产品的风控流程中,可以实现不同场景的应用,包括贷前风控审批、贷前额度授信、贷中风险监测、贷后营销管理等,这里对各典型场景简要介绍如下:

(1)贷前风控审批:当中小微企业申请企业贷款融资时,银行等金融机构可以采用企业信用评级模型对企业进行风控审批,例如当企业信用评级为A时,可以通过线上审批;当企业信用评级为B时,需要介入人工审批;当企业信用评级为C或D时,直接拒绝进件申请。

(2)贷前额度授信:当中小微企业申请贷款的贷前风控审批通过后,根据企业信用评级模型的不同等级赋予不同的额度系数,例如当企业信用评级为A时,申请额度系数为100%;当企业信用评级为B时,申请额度系数为80%;当企业信用评级为C时,申请额度系数为60%;当企业信用评级为D时,申请额度系数为50%。

(3)贷中风险监测:当中小微企业成功贷款融资后,银行等金融机构在企业日常分期还款过程中,需要定期监测企业的风险情况,例如当企业信用评级为A时,说明企业的风险状况良好,无需采取相关措施;当企业信用评级为B时,说明企业的风险状况较好,需要适当进行关注;当企业信用评级为C时,说明企业的风险状况较差,需要客户经理线下尽调采取相关措施;当企业信用评级为D时,说明企业的风险状况很差,需要采取有效措施以避免还款逾期。

(4)贷后营销管理:当中小微企业的贷款周期在进行中或结束后,银行等金融机构对存量企业的客户管理工作是非常重要的,根据企业的实际价值评估可以采取相关产品营销,例如当企业信用评级为A时,说明企业的营销价值很好,可以对其再次营销;当企业信用评级为B时,说明企业的营销价值较好,可以适当推广风险较小的产品;当企业信用评级为C时,说明企业的风险状况较差,暂时不予以再次营销而可以后续关注;当企业信用评级为D时,说明企业的风险状况很差,不予以产品营销。

以上场景是中小微企业实际信贷业务比较典型的应用,其核心思路是通过模型来预测企业的信用评级,从而帮助银行等金融机构对新增企业综合信用风险的评估识别,以及企业群体在不同信用等级下的营销价值管理。

综合以上内容介绍,我们通过XGBoost树模型实现了中小微企业信贷业务中的多分类信用评级,相比通常二分类模型概率转换的多分类情形更具有针对性。因此,在例如信用评级、价值分层等多分类场景下,可以采用多分类算法来构建模型,这样更满足实际业务情况与场景需求。为了便于大家对以上企业多分类信用评级内容的进一步熟悉与掌握,本文额外附带了样本数据与python代码,供大家参考学习,详情请移至知识星球查看相关内容。

多分类的风险评分数据实操,助您中小微业务稳人一步

编辑切换为居中

添加图片注释,不超过 140 字(可选)

~原创文章

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

(0)
上一篇 2022年10月13日 上午9:17
下一篇 2022年10月13日 上午9:31

相关推荐