利用样本分群提升风控模型性能

首页    工商    利用样本分群提升风控模型性能

  Part 1. 样本分群在风控建模中的价值

  重庆代理记账分群(segmentation)是指根据某些规则将人群细分,其基本要求是组内相近,组间相异。

  在市场营销中,我们往往希望广告能精准投放,这样就能大幅度减少广告成本,并且能让目标人群有更高的响应率(response rate)。

  在风控建模中,我们希望模型能专注地从样本中学到X与y之间的映射关系。为了达到这个目的,我们会帮助模型预先筛选好样本(也就是分群),使其在特定样本上专注学习。当然,我们需要注意每个分群上的样本量足够,否则容易过拟合。

重庆餐饮经营许可证代办

  Part 2. 基于业务经验的无监督分群

  此时,我们需要用户画像有全面的了解,否则很容易失去业务可解释性。例如,如果有“有娃一族”、“购物达人”、“理财能手”等用户画像标签,我们就很容易根据这些标签进行组合,实现进一步分群。

  常见的无监督聚类方法有K-means、GMM(高斯混合模型)等。其中,K-means存在随机选择初始质心和需设置超参数K(目标簇数)等问题,容易导致分群不稳定的现象。GMM在实际聚类时的效果往往更好,其主要思想是样本分布可以分解为多个正态分布的组合。

  需要指出的是,这些无监督算法在实践中并不一定会得到很好的效果,不稳定的分群也会让人怀疑合理性,因此通常情况下还是基于业务经验,以及用户画像基础属性来细分人群。

  经过上述分析,我们认为该分群是有效的。接下来对5个子人群分别建立5个子模型。可以预见,不同子模型内入模特征的重要性顺序通常会存在差异。而当相对排序性几乎一致时,我们也能预估该分群操作对整体的提升贡献较小。

  Part 3. 基于决策树的有监督分群

  在实践中,很多经验不足的建模同学可借助有监督分群。首先需要根据业务目标来定义目标变量(target),因此在特定的场景上相对于无监督分群往往更为有效。重庆执照代办

  在实践中,我们经常使用决策树来分群,如分类回归决策树(Classification and Regression Tree,CRT)和CHAID等。一般情况下,也会在参考sklearn中可视化决策树结构的基础上,手动调整分裂点

  在构造分群变量时,一般需要满足以下几点要求:

  分群稳定性:随着时间变化,该分群是足够稳定的,不至于未来消失,或出现新的人群。

  分群差异性:各子群体之间具有足够的差异,否则便没有分群的意义。在PD模型中,差异性是指bad rate差异。

  业务解释性:分裂点通常需要符合业务经验,比如变量age在30.5发生分裂,这就不太符合业务sense,就会将其手动调整为30。

  在实践中,我们一般很难一下子就找到有效的分群规则,因此需要不断迭代尝试。这是一个相当耗时的步骤。

  Part 4. 利用分群变量提升模型

  我们常会用全量样本直接训练一个模型(记为Model 1)作为baseline版本,意义在于:

  1. baseline版本产出模型基本性能,从而帮助建模同学有大致判断,更有底。

  2. 阶段性成果用于向boss汇报,从而在项目执行过程中有及时反馈。

  3. 继续探索优化,比如样本分群、样本权重调整等,目的是打败这个baseline版本。

  另外,相信有过大型风控建模项目经验的同学肯定能明白baseline的重要性。在实践中,往往有几个切身体会:

  1. 模型设计和数据准备值得投入更多精力。

  2. 先打通整个流程,再考虑迭代优化。

  3. 先有保底版本,不至于项目延期无果。

  在得到分群变量后,我们可能采取两种候选建模方案:

  方案一:分群单独建模

  step 1. 对于N个分群单独建立N个子模型。同时,根据不同分群的特点构造新特征来提升子模型性能。

  step 2. 将子模型分数作为新的特征x,以及原样本的目标变量y,训练一个组合主模型。或者,将子模型分数校准到同一尺度,可以参考文章《信用评分卡模型分数校准》。

  方案二: 加入分群变量

  step 1. 加入分群变量,只训练一个模型。

  step 2. 在模型选择上:对于树模型而言,自动选择分群变量进行分裂群体来拟合;对于线性评分卡模型而言,增加新的维度,在高维空间进行拟合。

  那么,这两种方案之间的效果是否有差异呢?以及各有什么优缺点?🤔

  方案一:优点在于能强制模型专注于拟合局部人群样本,因此通常能达到不错的效果。另一方面,如果是团队协作建模,也便于分工并行。缺点在于相对耗时耗力,需要建多个子模型和一个主模型。同时,在模型上线部署和监控时会增加很多额外的工作量。因此,需要衡量这个“性价比”。

  方案二:优点在于相对省时省力,只需要建一个模型。然而,缺点也比较明显。理想情况下,如果树模型自动选择分群变量在根节点处分裂,那么就能达到和方案一同样的效果。但事实上真的如此吗?有时分群变量并一定在树模型的根部分裂,而在中间某个环节才分裂。因此,效果可能并不尽如人意。

  Part 5. 业务场景案例分析

  在建立PD(Probability of Default,违约率)风险模型时,首先建立baseline版本的Model 1,假设得到测试集上的Gini指标为0.57。

  接下来,我们利用年龄(age)和收入(income)这两个变量来进行样本分群,得到如图2所示的决策树。其中,共有5个叶子节点(绿色方块),代表5个细分人群。

  现从分群差异性、分群稳定性、业务解释性这3个维度进行分析:

  1. 分群差异性:各人群之间的bad rate差异性符合业务经验,相邻节点的差异达到30%以上。注意,这个并没有统一标准,根据具体业务场景而定。

  2. 分群稳定性:经过月维度的样本集分析,发现分群人数占比(sample rate)和bad rate都基本稳定。

  3. 业务解释性:符合业务常识。分裂点为整数,并且通常情况下,在一定范围内年龄越大,收入越高。重庆公司注销代办

2019年10月24日 09:33
浏览量:0
本网站由阿里云提供云计算及安全服务