在信贷评估里找“公平”：联邦学习、隐私与我的三个偏见

Created2025-05-20|Updated2025-05-20|信贷评估学习笔记

|Post Views:

哈喽大家好，我是小叶。

今天在备考金融风险管理（FRM），看到关于“信贷公平性”的章节，不由得想起了我之前做过的一个联邦学习（Federated Learning）项目。

现在的人工智能，最火的词就是“隐私保护”。各家银行手里都攥着客户数据，像守着金矿一样。这时候，联邦学习（FL）跳出来说：“别怕，我能让你们不分享数据，也能训练出一个超级强大的评分模型。”

但我现在的思考是： 联邦学习真的能解决“公平”吗？或者它只是给“偏见”穿上了一层隐身衣？

1. 那些被“加密”的社会偏见

在做信贷评分时，我们常说要去除“地域偏见”、“性别偏见”。但如果我们的原始数据本身就带有这些偏见，联邦学习只会让这种偏见变得更隐蔽。

因为模型在各家银行本地训练时，已经把那些社会经济特征（比如：某个地区的历史违约率高）内化到了梯度（Gradient）里。当你把这些梯度聚合成一个全局模型时，你其实是在“众筹”一种成见。

我的反思：
联邦学习解决了“数据能不能看”的问题，但它没解决“数据对不对”的问题。在信贷领域，公平性（Fairness）应该是一个前置条件，而不是一个加密后的结果。我建议在本地训练（Local Training）阶段，就必须加入“公平性约束”的 Loss 项，强制模型忽略那些敏感属性。

2. 🛠️ 实战中的小技巧：别只看 AUC，看看你的 KS 曲线

在做信用评分卡（Scorecard）时，大家习惯看 AUC（曲线下面积）。但如果你想真正理解模型，我建议你多看看 KS 曲线（Kolmogorov-Smirnov）。

KS 分值：如果 KS 太高（比如超过 0.5），别高兴太早，这往往意味着你的特征里混入了“未来函数”，或者存在严重的过拟合。
拒绝推断（Reject Inference）：这是信贷评估里最容易被忽略的。我们手里的样本全是“已获贷”的人，那些被我们拒绝的人（没贷到款的人），他们的违约表现我们其实是不知道的。
特征稳定性（PSI）：在联邦学习这种动态环境里，某一家参与方的特征分布稍微变一点，全局模型的 PSI 就会爆炸。

我的做法：
我现在在写评分逻辑时，会强制要求所有参与方在上传梯度前，先做一个“特征稳定性自检”。如果你的本地 PSI 超过 0.2，你的梯度就不参与这一轮的聚合。这种“洁癖”虽然会让模型收敛变慢，但能保命。

3. 给同行的一点真心话

其实，联邦学习在金融领域的落地，最大的障碍不是算法，而是信任。

银行 A 怕银行 B 偷它的数据；
银行 B 怕银行 A 在梯度里下毒（Poisoning Attack）；
监管怕你们两家私下搞垄断。

我的感悟：
隐私计算（MPC, TEE, FL）这些技术，其实是在为“信任”定价。如果一家银行的品牌足够硬，它其实不需要联邦学习。它只要说一句“把数给我，我给你们分成”，就会有人趋之若鹜。

4. 碎碎念

其实，做信贷的人都有点“守门员”的感觉。我们挡住那些风险，让金融活水流向该流的地方。

最近我在研究“因果推断（Causal Inference）”在信用评分里的应用。发现很多所谓的“高风险特征”，其实只是相关性，而不是因果性。如果能分清因果，我们或许能给那些被“误杀”的小微企业更多的机会。

合规提醒：本文仅供个人学习分享。信贷决策需严格遵守国家法律法规及各行信贷政策。

Author: xtbb

Link: http://bin-hy.github.io/credit-fairness-rethinking/

Copyright Notice: All articles on this blog are licensed under CC BY-NC-SA 4.0 unless otherwise stated.

联邦学习公平性信用评分隐私计算思考

Related Articles

“黑盒”里的正义：我为什么坚持在信用评分里做 XAI？

哈喽大家好，我是小叶。今天想跟大家聊聊一个可能有点“冷门”但非常有情怀的话题：可解释性 AI（XAI）。作为一个上财在读、又爱撸码的小程序媛，我以前觉得：模型不就是为了追求精度吗？XGBoost 比线性回归（LR）高了 5 个点的 AUC，那我们就该用 XGBoost，不是吗？直到我去年去某行信用卡中心实习，参与了一个关于“自动化拒绝推断”的项目。当一个申请人被模型拒绝后，他打来电话问：“我收入稳定，信用记录良好，为什么你们拒了我？”当时的模型是一个复杂的随机森林。我查了后台，只能看到一个 0.85 的违约概率。我无法告诉他原因。那一刻，我感觉到了一种技术的冷酷。 1. 为什么“黑盒”在金融里行不通？在猫狗分类里，你不需要解释为什么这是一只猫。但在金融里，每一个决策都关乎一个人的生活，甚至是一个企业的存亡。监管要求：很多国家的法律规定，金融机构必须对拒绝贷款给出合理的解释。业务信任：如果风控人员不知道模型为什么报错，他们就不敢在实盘里大规模使用。公平性检测：黑盒模型很容易学到一些隐蔽的偏见（比如地域歧视）。只有打开黑盒，你才能发现这些“脏东西”。 2. 🛠️ 实...

信用评分卡里的“老江湖”：PD、LGD 与 WOE 的实战哲学

哈喽大家好，我是小叶。今天想跟大家聊聊信用风险管理里的“基本功”。如果你在银行风控部门，你一定听过这几个字母缩写：PD、LGD、EAD。作为一个上财在读、又爱撸码的小程序媛，我刚入行的时候觉得：这些不就是几个乘法公式吗？有什么好学的？直到我真正去参与了一个信用评分卡（Scorecard）的建模过程，我才发现：这些指标里藏着对人性和风险最深刻的博弈。 1. PD、LGD、EAD：风险的三个维度课本上的公式很简单：EL = PD * LGD * EAD（预期损失 = 违约概率 * 违约损失率 * 违约风险暴露）。但我现在的理解是： PD（违约概率）：他会不会跑路？这是对还款意愿和还款能力的判断。 LGD（违约损失率）：如果他跑了，我能追回多少？这是对抵押品和追偿能力的判断。 EAD（违约风险暴露）：他跑的那一刻，欠了我多少钱？这通常取决于额度管理。我的反思：很多模型只盯着 PD 看，觉得只要预测准了谁会违约就万事大吉。但在真实的银行业务里，一个大额订单的违约，抵得上几千个小额订单的正常还款。如果你不把 LGD 和 EAD 考虑进去，你的风控策略就是“捡了芝麻丢了西...

在金融圈里“撸码”：我的 Pandas、Linux 和 Git 保命工具箱

哈喽大家好，我是小叶。今天想跟大家聊聊点“接地气”的东西。如果你是一个在上财在读、又想进金融圈撸码的小程序媛（或者小哥哥），你一定听过很多高大上的算法：Transformer、强化学习、GNN…… 但作为一个在量化团队实习过、也踩过无数坑的人，我想说：在金融实战里，能救命的往往不是大算法，而是你的“基本功”。如果你连 Pandas 里的时间序列索引都搞不清楚，或者 Linux 服务器崩了你只会重启，那你的“大模型”也只能是空中楼阁。今天想分享我的三个“保命工具箱”。 1. Pandas：不仅是表格，更是“时间机器”在金融领域，最核心的数据是 Time Series（时间序列）。坑 1：Look-ahead Bias（未来函数）。如果你在计算技术指标时，不小心用到了当天的收盘价来预测当天的涨跌，那你的回测曲线会美得让你怀疑人生。坑 2：Reindexing（重索引）。停牌的股票、节假日的行情，这些坑在数据对齐时会让你抓狂。我的实战笔记：我现在的保命代码里，一定会加上这一行： 12# 强制按交易日历重新索引，填充空值df = df.reindex(trading_cal...

当 BERT 在金融圈里“翻车”：语义、情绪与真实的风险

哈喽大家好，我是小叶。最近在整理一份关于“非结构化文本风控”的笔记。如果你关注 NLP 在金融领域的应用，一定听过 FinBERT。它的核心逻辑是在通用的 BERT 基础上，用了大量的路透社新闻和 10-K 报表做二次预训练。听起来很牛，对吧？我也曾觉得这就是风控的“银弹”。但当我真正把这些模型丢到某几家暴雷公司的年报里时，我发现：AI 也会被“话术”耍得团团转。 1. 那些被“掩盖”的风险词汇在金融文本里，真正的风险往往不是直接说“我们要倒闭了”，而是用极其隐晦的修辞。比如：“鉴于宏观环境的不确定性，公司正在积极优化资产结构。” 在通用 BERT 眼里，“积极”、“优化”、“结构”全是正面词汇。哪怕是 FinBERT，如果预训练语料里这种“官样文章”太多，它也会学到一种偏见：只要辞令足够体面，风险就不存在。我的反思：AI 擅长的是“概率提取”，而不是“逻辑挖掘”。在风控场景下，我们要找的不是“情绪”，而是“异常”。比如，如果一家公司连续三年的 MD&A（管理层讨论与分析）段落重复率高达 90%，这本身就是一种巨大的风险信号——说明他们根本没在认真经营，或者在隐瞒什...

“业绩会”里的真心话：我用 RAG 自动抓出管理层在 Earnings Call 里的“情绪锚点”

哈喽大家好，我是小叶。今天想带大家聊一个非常实战、甚至带点“心理博弈”的投研场景：业绩说明会（Earnings Call）的自动化分析。如果你是买方研究员，你一定听过业绩会。场景：管理层宣读完 PPT，进入 Q&A 环节。博弈：分析师抛出尖锐问题（比如：“为什么二季度毛利下滑了？”），管理层往往会用一些复杂的辞令来应对。痛点：全场一个多小时，PDF 几万字。你如何快速定位到那些“管理层不敢正面回答”或“语气出现微妙变化”的瞬间？作为一个爱好开发的小程序媛，我去年尝试用 RAG (Retrieval-Augmented Generation) 构建了一个业绩会助手。今天想聊聊我的实战心得。 1. 为什么 RAG 是业绩会的“克星”？业绩会是高度非结构化的对话。长文本：全文太长，直接塞给大模型（LLM）会被切断，或者因为它太长而产生“幻觉”。多说话人：需要区分是哪个分析师问的，哪个高管回的。语义模糊：比如管理层说“我们在努力改善……”，这在语义上是积极的，但在语境下（毛利大幅下滑）其实是负面的信号。我的反思：RAG 最大的价值在于上下文检索。它能...

当 AI 模型在金融市场里“翻车”：我为什么开始死磕 MLOps？

哈喽大家好，我是小叶。今天想跟大家聊聊一个可能有点“枯燥”但绝对“保命”的话题：MLOps（机器学习运维）。作为一个上财在读的小程序媛，我以前觉得：做 AI 不就是写写代码、调调参、刷刷 AUC 吗？直到我去年参与了一个实盘量化项目的上线。那是我的第一个模型。线下回测年化 30%，各种指标美如画。上线第一周，它就开始疯狂亏钱。导师把我叫进办公室，没看我的模型代码，只问了一个问题：“你有没有做模型监控？” 1. 那些被“静态思维”杀死的 AI 模型在学校里，我们拿到的数据集是静态的。但在金融市场，数据是流动的，甚至是诡异的。概念漂移（Concept Drift）：比如你的模型是基于牛市训练的，突然遇上大熊市，你的特征分布全变了。训练-预测不一致（Training-Serving Skew）：线下回测用的是收盘价，线上实盘用的是成交价。这万分之一的差别，就足以让你的策略失效。我的反思：金融 AI 最大的挑战不是“怎么训练”，而是“怎么活着”。如果你没有一套自动化、标准化的流程去管理模型的生命周期，那你训练出的每一个模型，都是在给未来埋雷。 2. 🛠️ 实战中的“三板...

Comments

ArtalkGiscus

Loading Database