“黑盒”里的正义：我为什么坚持在信用评分里做 XAI？

Created2025-12-25|Updated2025-12-25|信贷评估学习笔记

|Post Views:

哈喽大家好，我是小叶。

今天想跟大家聊聊一个可能有点“冷门”但非常有情怀的话题：可解释性 AI（XAI）。

作为一个上财在读、又爱撸码的小程序媛，我以前觉得：模型不就是为了追求精度吗？XGBoost 比线性回归（LR）高了 5 个点的 AUC，那我们就该用 XGBoost，不是吗？

直到我去年去某行信用卡中心实习，参与了一个关于“自动化拒绝推断”的项目。
当一个申请人被模型拒绝后，他打来电话问：“我收入稳定，信用记录良好，为什么你们拒了我？”
当时的模型是一个复杂的随机森林。我查了后台，只能看到一个 0.85 的违约概率。我无法告诉他原因。那一刻，我感觉到了一种技术的冷酷。

1. 为什么“黑盒”在金融里行不通？

在猫狗分类里，你不需要解释为什么这是一只猫。但在金融里，每一个决策都关乎一个人的生活，甚至是一个企业的存亡。

监管要求：很多国家的法律规定，金融机构必须对拒绝贷款给出合理的解释。
业务信任：如果风控人员不知道模型为什么报错，他们就不敢在实盘里大规模使用。
公平性检测：黑盒模型很容易学到一些隐蔽的偏见（比如地域歧视）。只有打开黑盒，你才能发现这些“脏东西”。

2. 🛠️ 实战中的“翻译官”：SHAP 与 LIME

为了解决这个问题，我开始死磕 XAI。目前最主流的两个工具是 SHAP（Shapley Additive Explanations）和 LIME。

SHAP：基于博弈论。它能告诉每个特征对最终得分的贡献度。比如：因为你的“最近 3 个月查询次数”贡献了 +0.2 的违约风险，所以你被拒了。
LIME：它是用一个局部的线性模型去拟合那个复杂的非线性模型。它能告诉你：在当前的样本点附近，最重要的影响因素是什么。

我的实战笔记：
我后来在公司的评分系统里集成了一个 SHAP 可视化看板。
每当一个高分违约（False Negative）发生时，我会点开 SHAP 图看一眼。有一次我发现，模型之所以给一个骗子打了高分，是因为那个骗子伪造了一份完美的财务报表。SHAP 显示“财务指标”贡献了 90% 的得分。这就提醒我们：如果输入是假的，模型再强也是垃圾。

3. 给同行的一点真心话

现在大家都在追求 SOTA（State-of-the-Art），追求各种复杂的神经网络。但在金融领域，“可控”往往比“精准”更重要。

我现在的习惯是：即便我用深度学习跑出了极高的精度，我也一定会用一个简单的线性模型或者决策树作为“影子模型（Shadow Model）”。如果两者的解释逻辑发生了剧烈背离，我宁可放弃那几个点的精度，也要保证逻辑的自洽。

4. 碎碎念

其实，做 AI 的人都有点“造物主”的错觉。我们创造了模型，但我们不能被模型反噬。

最近我在看一些关于“反事实解释（Counterfactual Explanations）”的论文。这种方法能告诉用户：“如果你能把信用卡欠款降低 5000 元，你的贷款申请就能通过。”这种带有行动指引的解释，才是金融 AI 真正的温度。等我写好了那个反事实解释的脚本，再来跟大家分享。

合规提醒：本文内容仅为技术交流。信用评分决策需严格遵循各机构的风控政策与监管准则。

Author: xtbb

Link: http://bin-hy.github.io/xai-credit-rethinking/

Copyright Notice: All articles on this blog are licensed under CC BY-NC-SA 4.0 unless otherwise stated.

信用评分可解释性AI XAI SHAP LIME 思考

Related Articles

在信贷评估里找“公平”：联邦学习、隐私与我的三个偏见

哈喽大家好，我是小叶。今天在备考金融风险管理（FRM），看到关于“信贷公平性”的章节，不由得想起了我之前做过的一个联邦学习（Federated Learning）项目。现在的人工智能，最火的词就是“隐私保护”。各家银行手里都攥着客户数据，像守着金矿一样。这时候，联邦学习（FL）跳出来说：“别怕，我能让你们不分享数据，也能训练出一个超级强大的评分模型。” 但我现在的思考是：联邦学习真的能解决“公平”吗？或者它只是给“偏见”穿上了一层隐身衣？ 1. 那些被“加密”的社会偏见在做信贷评分时，我们常说要去除“地域偏见”、“性别偏见”。但如果我们的原始数据本身就带有这些偏见，联邦学习只会让这种偏见变得更隐蔽。因为模型在各家银行本地训练时，已经把那些社会经济特征（比如：某个地区的历史违约率高）内化到了梯度（Gradient）里。当你把这些梯度聚合成一个全局模型时，你其实是在“众筹”一种成见。我的反思：联邦学习解决了“数据能不能看”的问题，但它没解决“数据对不对”的问题。在信贷领域，公平性（Fairness）应该是一个前置条件，而不是一个加密后的结果。我建议在本地训练（Local T...

当 Transformer 遇上波动率预测：它真的比 LSTM 强吗？

哈喽大家好，我是小叶。最近在整理一份关于“高频波动率预测”的笔记。如果你关注深度学习在金融领域的应用，一定听过 Transformer。现在的 NLP 和 CV 全是 Transformer 的天下，所以很多小伙伴自然而然地觉得：既然它在翻译和图像上无往不利，那在预测股价波动率上，也应该是“降维打击”吧？但我现在的思考是：在金融这种低信噪比、非平稳的时间序列里，Transformer 真的比 LSTM 这种“老将”强吗？ 1. 那些被“注意力”带跑的噪声Transformer 的核心是 Self-Attention（自注意力机制）。它能捕捉长程依赖（Long-range dependency）。比如：一年前的某次美联储加息，可能对今天的市场情绪依然有影响。听起来很完美，对吧？但别忘了，金融数据的长程依赖极其微弱，而短程的噪声却极其强烈。我的反思：我之前做过一个实验，用 Transformer 预测 1 分钟级的实现波动率（Realized Volatility）。结果发现，模型在训练集上表现得像神一样，但在测试集上直接“翻车”。原因很简单：Attention 太敏感了。...

“股吧”千万条，风险第一条：我从散户情绪里挖出的反转信号

哈喽大家好，我是小叶。今天想跟大家聊聊“另类数据（Alternative Data）”。如果你在量化团队待过，你一定知道现在因子的内卷程度。传统的价量因子、财务因子，早就被大家挖烂了。于是，大家开始把目光投向了一些奇奇怪怪的地方：卫星遥感、港口流量、信用卡消费记录，还有——社交媒体情绪。作为一个上财在读的小程序媛，我去年给自己撸了一个“股吧爬虫+情绪分析仪”。今天想聊聊我在这些散户情绪里看到的真相。 1. 为什么“股吧”的情绪是反转信号？很多人觉得，股吧里全是噪声。大家在里面吵架、谩骂、吹捧。但如果你用 NLP 模型（比如我微调过的 FinBERT）去批量处理这些文字，你会发现一个非常有意思的现象：极致的情绪，往往是市场的拐点。我的反思：当一个股票的股吧里全是“涨停”、“起飞”、“YYDS”的时候，往往就是散户情绪最高亢、筹码最集中的时刻。这时候，聪明钱已经在悄悄撤退了。相反，当股吧里全是“退市”、“垃圾”、“再也不碰”的时候，绝望的情绪反而孕育着底部的反弹。这就是典型的 “逆向投资逻辑”。我用 Python 写了一个简单的策略：当情绪得分（Sentiment Scor...

债市里的“长情”与“善变”：久期、凸性与我的三次踏空

哈喽大家好，我是小叶。今天在备考金融风险管理（FRM），正好复习到固定收益（Fixed Income）这一块。作为上财在读、又爱撸码的小程序媛，我一直觉得：债券这种“还本付息”的东西，不就是算算现金流吗？有什么难的？直到我去年在模拟盘里，因为没看懂久期（Duration），直接遭遇了三次连续的“踏空”。今天想聊聊我对债市里这些核心指标的“血泪教训”。 1. 久期：它不仅仅是“时间”课本上说，马考利久期是现金流加权的平均回收期。但我现在的理解是：久期是债券对利率变化的敏感度。如果你手里拿着一只久期为 10 年的债券，当利率上升 1% 时，你的债券价格会跌大约 10%。我的教训：我当时觉得利率已经到底了，应该买点长债（Long-term bonds）博反弹。结果美联储加息预期一出，长债的价格跌得比股票还凶。我才意识到：久期是一把双刃剑。在牛市里，长久期是杠杆；在熊市里，长久期是噩梦。如果你不看久期，你就根本不知道自己承担了多大的利率风险。 2. 凸性（Convexity）：债券的“温柔保护”如果说久期是直线，那凸性就是曲线。当利率下降时，债券价格上涨的速度，比久期预测的要快...

“洗钱”黑洞里的“侦探”：我用图神经网络抓坏人的那些事

哈喽大家好，我是小叶。今天想跟大家聊聊反洗钱（AML）。如果你在银行工作，你一定知道那套“基于规则”的系统有多头疼。比如：某人一天转账超过 5 万，系统就会报警。但现在的犯罪分子可不是吃素的。他们会把一笔巨款拆成几千个小额账户，在深夜通过几十个国家的服务器疯狂流转。传统的系统在这些“蚂蚁搬家”面前，简直就像是纸糊的。作为一个爱好开发的小程序媛，我去年参与了一个基于图神经网络（GNN）的 AML 项目。今天想聊聊我的实战心得。 1. 为什么“图”比“表”更适合抓坏人？传统的数据库是“表格”式的。每个人都是一行数据。但洗钱的本质是连接。账户 A 转给账户 B。账户 B 马上分拆转给账户 C、D、E。 C、D、E 又通过几层转账汇集到账户 Z。在 GNN 的眼里，每个账户是一个“节点”，每笔交易是一条“边”。这就不再是孤立的数据点，而是一个活生生的交易网。我的反思：传统的逻辑是“看人”，而 GNN 的逻辑是“看邻居”。如果你的账户本身很干净，但你的邻居全是一堆刚开户就大额转账的异常节点，那你大概率就是“网”里的一环。这种**消息传递（Message Passing...

“打工人”的救星还是“小作文”生成器？我用 RAG 做 ESG 自动研报的心得

哈喽大家好，我是小叶。最近在实习，导师丢给我一堆 ESG（环境、社会和公司治理）相关的 PDF，让我总结一下某行业的碳排放趋势。看到那几十份几百页的文档，我当时脑子里只有一个念头：我是来写研报的，不是来练速读的。于是，作为一个小程序媛，我决定用 RAG（检索增强生成）给自己撸个助手。 1. 为什么 RAG 是投研的“刚需”？大家都在用 ChatGPT，但直接把研报喂给它，它会告诉你“超出 Token 限制”。RAG 的逻辑很简单：先把文档切碎、存进向量库，等我提问时，AI 先去库里找相关的片段，再结合这些片段回答我。我的发现：在 ESG 领域，数据极其分散。有的在年报里，有的在社会责任报告里，有的在新闻通稿里。RAG 最大的价值，不是生成文字，而是溯源。 2. 🛠️ 避坑指南：AI 的“幻觉”比你想象中更真实刚跑通 demo 的时候，我问它：“某公司的碳中和目标是什么？”它信誓旦旦地回答：“2030 年实现净零排放。”我一查原件，好家伙，原件说的是“2030 年实现运营层面碳中和”。这两者差得可不是一点半点！我的反思：AI 的“总结能力”太强，以至于它会把模糊的概念“美...

Comments

ArtalkGiscus

Loading Database