信用评分卡里的“老江湖”:PD、LGD 与 WOE 的实战哲学
哈喽大家好,我是小叶。
今天想跟大家聊聊信用风险管理里的“基本功”。如果你在银行风控部门,你一定听过这几个字母缩写:PD、LGD、EAD。
作为一个上财在读、又爱撸码的小程序媛,我刚入行的时候觉得:这些不就是几个乘法公式吗?有什么好学的?
直到我真正去参与了一个信用评分卡(Scorecard)的建模过程,我才发现:这些指标里藏着对人性和风险最深刻的博弈。
1. PD、LGD、EAD:风险的三个维度
课本上的公式很简单:EL = PD * LGD * EAD(预期损失 = 违约概率 * 违约损失率 * 违约风险暴露)。
但我现在的理解是:
- PD(违约概率):他会不会跑路?这是对还款意愿和还款能力的判断。
- LGD(违约损失率):如果他跑了,我能追回多少?这是对抵押品和追偿能力的判断。
- EAD(违约风险暴露):他跑的那一刻,欠了我多少钱?这通常取决于额度管理。
我的反思:
很多模型只盯着 PD 看,觉得只要预测准了谁会违约就万事大吉。但在真实的银行业务里,一个大额订单的违约,抵得上几千个小额订单的正常还款。如果你不把 LGD 和 EAD 考虑进去,你的风控策略就是“捡了芝麻丢了西瓜”。
2. 🛠️ 实战笔记:WOE 与 IV 的“艺术”
在建立评分卡模型(通常是逻辑回归 LR)之前,我们必须做特征处理。这时候,WOE(证据权重) 和 IV(信息价值) 就派上用场了。
- WOE 分箱(Binning):这是要把连续的特征(比如年龄、收入)切成一段一段的。
- IV 筛选:如果一个因子的 IV 小于 0.02,说明它几乎没有预测能力,直接丢掉。
我的避坑指南:
我以前追求极致的 IV,结果把分箱切得特别细。结果模型上线后,出现了严重的**“单调性违背”**。
比如:理论上收入越高违约率越低,但我切出来的分箱显示,月薪 10 万的人违约率比月薪 5 万的人还高。这显然是过拟合。
我现在学会了:分箱必须符合金融逻辑。如果趋势不单调,宁可合并分箱,牺牲一点 IV,也要保证模型的鲁棒性。
3. 给同行的一点真心话
现在大家都在谈论大数据风控,觉得特征越多越好。
但我发现,在传统的评分卡模型里,真正起决定作用的往往只有那 10-15 个核心因子:你的逾期历史、你的资产负债率、你的收入水平。
我的感悟:
评分卡不仅仅是模型,它是一种决策逻辑。它的美感在于它的简洁和可解释。每一个分数背后,都对应着一个活生生的人。如果你不能理解这些因子背后的业务含义,那你只是一个调参的“机器”,而不是一个风险管理者。
4. 碎碎念
其实,做风控的人都有点“守门员”的执着。我们要在繁杂的数据里,寻找那些真正能代表信用风险的微弱信号。
最近我在研究如何把“心理学特征”引入评分卡。发现一个人的社交稳定性和消费习惯,往往比他的收入更能预测他的违约倾向。等我收集到了足够多的实证数据,再来跟大家复盘。
合规提醒:本文内容仅为个人学习心得分享。信贷决策需严格遵循国家法律法规及各行风控政策。