一文囊括风控建模中的变量筛选方法
风控建模在金融领域中起着至关重要的作用,特别是在信贷和支付领域。为了构建稳定和有效的风控模型,变量筛选是一个必不可少的步骤。本文将详细介绍几种在风控建模中常用的变量筛选方法。
文章目录
-
- 一、变量自身分布稳定性
-
- 1 变量PSI值计算
- 2 长期趋势图
- 二、变量和目标值的强相关关系
-
- 1 IV值计算
- 2 相关性矩阵
- 三、基于模型的特征重要性
-
- 1 随机森林特征重要性
- 2 梯度提升机特征重要性
- 3 线性模型特征重要性
- 四、其他常用的变量筛选方法
-
- 1 方差
- 2 前后向筛选
- 3 方差膨胀系数(VIF)
- 4 业务逻辑考虑
一、变量自身分布稳定性
1 变量PSI值计算
变量稳定性是反映客群在某些方面随时间变化的重要指标。PSI(Population Stability Index)是衡量变量分布稳定性的一种常用方法。PSI的计算公式为:
PSI=∑((实际占比−预期占比)×ln( 预期占比/实际占比))
在建模初期,可以通过选择某一天作为基准日,计算后续每天与基准日数据的PSI值。如果某一天的PSI值超过设定的阈值(通常为0.1),则考虑删除该变量。时间尺度也可以扩大到周或月。理论上PSI需要框定在一定范围内有助于模型的稳定,但是实际场景可能变量由于策略频繁调整或外部数据源变化,PSI值很可能大于阈值。可适当调整该阈值,以让模型有变量可用。对PSI想更深入了解的小伙伴可以看下: