avatar
Articles
16
Tags
62
Categories
20
首页
留言板
频道
分类
标签
足迹
关于
彤彤手记
Search
首页
留言板
频道
分类
标签
足迹
关于

彤彤手记

大模型会读“潜台词”吗?当 LLM 遇上财报情绪分析
Created2026-03-07|金融科技
大模型会读“潜台词”吗?当 LLM 遇上财报情绪分析大家好,我是你们的老朋友。最近在和几位做量化的同学聊天时,大家都在讨论一个很有趣的话题:既然 ChatGPT 这么能聊,那能不能让它帮我们去读那些动辄几百页的上市公司财报? 作为一名常年穿梭在金融与计算机之间的研究者,我想告诉你:大模型不仅能读,而且它还能读出人类分析师有时会忽略的“潜台词”。今天,我就带大家拆解一下,AI 是如何通过“情绪分析”在投研领域大显身手的。 1. 痛点:被淹没在文字海洋里的分析师在金融圈,财报(Annual Reports)和业绩说明会(Earnings Calls)是信息的金矿。但问题是,现在的金矿太大了。 想象一下,一位覆盖 30 家公司的分析师,每季度都要面对数千页的 PDF。传统的做法是搜索关键词(如“增长”“亏损”),或者依赖简单的词典法(基于词库给单词打分)。但这种方法有个致命伤:它不懂语境。 比如这句:“尽管面临挑战,但我们的营收依然稳健。” 传统的词典法可能会因为看到“挑战”而给负分,但人类知道,这其实是在强调“稳健”。 2. 技术拆解:从“数单词”到“懂情感”为什么以 GPT-4 或...
“黑盒”里的正义:我为什么坚持在信用评分里做 XAI?
Created2025-12-25|信贷评估学习笔记
哈喽大家好,我是小叶。 今天想跟大家聊聊一个可能有点“冷门”但非常有情怀的话题:可解释性 AI(XAI)。 作为一个上财在读、又爱撸码的小程序媛,我以前觉得:模型不就是为了追求精度吗?XGBoost 比线性回归(LR)高了 5 个点的 AUC,那我们就该用 XGBoost,不是吗? 直到我去年去某行信用卡中心实习,参与了一个关于“自动化拒绝推断”的项目。当一个申请人被模型拒绝后,他打来电话问:“我收入稳定,信用记录良好,为什么你们拒了我?”当时的模型是一个复杂的随机森林。我查了后台,只能看到一个 0.85 的违约概率。我无法告诉他原因。那一刻,我感觉到了一种技术的冷酷。 1. 为什么“黑盒”在金融里行不通?在猫狗分类里,你不需要解释为什么这是一只猫。但在金融里,每一个决策都关乎一个人的生活,甚至是一个企业的存亡。 监管要求:很多国家的法律规定,金融机构必须对拒绝贷款给出合理的解释。 业务信任:如果风控人员不知道模型为什么报错,他们就不敢在实盘里大规模使用。 公平性检测:黑盒模型很容易学到一些隐蔽的偏见(比如地域歧视)。只有打开黑盒,你才能发现这些“脏东西”。 2. 🛠️ 实...
当 Transformer 遇上波动率预测:它真的比 LSTM 强吗?
Created2025-12-15|量化投资学习笔记
哈喽大家好,我是小叶。 最近在整理一份关于“高频波动率预测”的笔记。如果你关注深度学习在金融领域的应用,一定听过 Transformer。现在的 NLP 和 CV 全是 Transformer 的天下,所以很多小伙伴自然而然地觉得:既然它在翻译和图像上无往不利,那在预测股价波动率上,也应该是“降维打击”吧? 但我现在的思考是: 在金融这种低信噪比、非平稳的时间序列里,Transformer 真的比 LSTM 这种“老将”强吗? 1. 那些被“注意力”带跑的噪声Transformer 的核心是 Self-Attention(自注意力机制)。它能捕捉长程依赖(Long-range dependency)。比如:一年前的某次美联储加息,可能对今天的市场情绪依然有影响。 听起来很完美,对吧?但别忘了,金融数据的长程依赖极其微弱,而短程的噪声却极其强烈。 我的反思:我之前做过一个实验,用 Transformer 预测 1 分钟级的实现波动率(Realized Volatility)。结果发现,模型在训练集上表现得像神一样,但在测试集上直接“翻车”。原因很简单:Attention 太敏感了。...
在金融圈里“撸码”:我的 Pandas、Linux 和 Git 保命工具箱
Created2025-12-05|学习分享计算机
哈喽大家好,我是小叶。 今天想跟大家聊聊点“接地气”的东西。如果你是一个在上财在读、又想进金融圈撸码的小程序媛(或者小哥哥),你一定听过很多高大上的算法:Transformer、强化学习、GNN…… 但作为一个在量化团队实习过、也踩过无数坑的人,我想说:在金融实战里,能救命的往往不是大算法,而是你的“基本功”。 如果你连 Pandas 里的时间序列索引都搞不清楚,或者 Linux 服务器崩了你只会重启,那你的“大模型”也只能是空中楼阁。今天想分享我的三个“保命工具箱”。 1. Pandas:不仅是表格,更是“时间机器”在金融领域,最核心的数据是 Time Series(时间序列)。 坑 1:Look-ahead Bias(未来函数)。如果你在计算技术指标时,不小心用到了当天的收盘价来预测当天的涨跌,那你的回测曲线会美得让你怀疑人生。 坑 2:Reindexing(重索引)。停牌的股票、节假日的行情,这些坑在数据对齐时会让你抓狂。 我的实战笔记:我现在的保命代码里,一定会加上这一行: 12# 强制按交易日历重新索引,填充空值df = df.reindex(trading_cal...
“炼金”还是“炼心”?当我在量化里用强化学习跑赢基准的那一刻
Created2025-11-20|量化投资学习笔记
哈喽大家好,我是小叶。 今天想跟大家聊点硬核的,但也想说点大实话。如果你最近关注量化投资,肯定被“深度强化学习(DRL)”刷屏了。什么 FinRL、DQN 选股,听起来就像是拿到了打开财富之门的金钥匙。 我去年也迷上了这个。作为一个上财在读、又爱撸码的小程序媛,我当时觉得:既然 AlphaGo 能下赢围棋,那我喂给它全市场的 K 线和因子,它不就能帮我实现财务自由了吗? 1. 那些被“神化”的 DRL 曲线当时我照着一篇顶会论文复现了一个基于 PPO(Proximal Policy Optimization)的资产组合优化策略。在不考虑手续费和滑点的“理想国”里,那条净值曲线简直美得不像话,年化收益 40%+,夏普比率 3.0。 我当时兴奋得差点就在校友群里发红包了。但当我冷静下来,把万分之三的滑点和千分之一的印花税加进去后,曲线瞬间塌方。 我的反思: 很多 DRL 在量化上的“成功”,其实是拟合了噪声,或者是通过高频换仓在赚那些根本拿不到的虚假利润。强化学习最大的敌人不是模型,而是真实交易里的摩擦成本。 2. 状态空间(State Space)的真相:你喂的是信息还是垃圾?写代...
当 BERT 在金融圈里“翻车”:语义、情绪与真实的风险
Created2025-11-05|风控与大模型学习笔记
哈喽大家好,我是小叶。 最近在整理一份关于“非结构化文本风控”的笔记。如果你关注 NLP 在金融领域的应用,一定听过 FinBERT。它的核心逻辑是在通用的 BERT 基础上,用了大量的路透社新闻和 10-K 报表做二次预训练。 听起来很牛,对吧?我也曾觉得这就是风控的“银弹”。但当我真正把这些模型丢到某几家暴雷公司的年报里时,我发现:AI 也会被“话术”耍得团团转。 1. 那些被“掩盖”的风险词汇在金融文本里,真正的风险往往不是直接说“我们要倒闭了”,而是用极其隐晦的修辞。比如:“鉴于宏观环境的不确定性,公司正在积极优化资产结构。” 在通用 BERT 眼里,“积极”、“优化”、“结构”全是正面词汇。哪怕是 FinBERT,如果预训练语料里这种“官样文章”太多,它也会学到一种偏见:只要辞令足够体面,风险就不存在。 我的反思:AI 擅长的是“概率提取”,而不是“逻辑挖掘”。在风控场景下,我们要找的不是“情绪”,而是“异常”。比如,如果一家公司连续三年的 MD&A(管理层讨论与分析)段落重复率高达 90%,这本身就是一种巨大的风险信号——说明他们根本没在认真经营,或者在隐瞒什...
当 AI 模型在金融市场里“翻车”:我为什么开始死磕 MLOps?
Created2025-10-18|技术趋势学习笔记
哈喽大家好,我是小叶。 今天想跟大家聊聊一个可能有点“枯燥”但绝对“保命”的话题:MLOps(机器学习运维)。 作为一个上财在读的小程序媛,我以前觉得:做 AI 不就是写写代码、调调参、刷刷 AUC 吗?直到我去年参与了一个实盘量化项目的上线。那是我的第一个模型。线下回测年化 30%,各种指标美如画。上线第一周,它就开始疯狂亏钱。 导师把我叫进办公室,没看我的模型代码,只问了一个问题:“你有没有做模型监控?” 1. 那些被“静态思维”杀死的 AI 模型在学校里,我们拿到的数据集是静态的。但在金融市场,数据是流动的,甚至是诡异的。 概念漂移(Concept Drift):比如你的模型是基于牛市训练的,突然遇上大熊市,你的特征分布全变了。 训练-预测不一致(Training-Serving Skew):线下回测用的是收盘价,线上实盘用的是成交价。这万分之一的差别,就足以让你的策略失效。 我的反思:金融 AI 最大的挑战不是“怎么训练”,而是“怎么活着”。如果你没有一套自动化、标准化的流程去管理模型的生命周期,那你训练出的每一个模型,都是在给未来埋雷。 2. 🛠️ 实战中的“三板...
“洗钱”黑洞里的“侦探”:我用图神经网络抓坏人的那些事
Created2025-09-05|风控与合规学习笔记
哈喽大家好,我是小叶。 今天想跟大家聊聊反洗钱(AML)。如果你在银行工作,你一定知道那套“基于规则”的系统有多头疼。比如:某人一天转账超过 5 万,系统就会报警。 但现在的犯罪分子可不是吃素的。他们会把一笔巨款拆成几千个小额账户,在深夜通过几十个国家的服务器疯狂流转。传统的系统在这些“蚂蚁搬家”面前,简直就像是纸糊的。 作为一个爱好开发的小程序媛,我去年参与了一个基于 图神经网络(GNN) 的 AML 项目。今天想聊聊我的实战心得。 1. 为什么“图”比“表”更适合抓坏人?传统的数据库是“表格”式的。每个人都是一行数据。但洗钱的本质是连接。 账户 A 转给账户 B。 账户 B 马上分拆转给账户 C、D、E。 C、D、E 又通过几层转账汇集到账户 Z。 在 GNN 的眼里,每个账户是一个“节点”,每笔交易是一条“边”。这就不再是孤立的数据点,而是一个活生生的交易网。 我的反思:传统的逻辑是“看人”,而 GNN 的逻辑是“看邻居”。如果你的账户本身很干净,但你的邻居全是一堆刚开户就大额转账的异常节点,那你大概率就是“网”里的一环。这种**消息传递(Message Passing...
“打工人”的救星还是“小作文”生成器?我用 RAG 做 ESG 自动研报的心得
Created2025-08-12|投研与数据学习笔记
哈喽大家好,我是小叶。 最近在实习,导师丢给我一堆 ESG(环境、社会和公司治理)相关的 PDF,让我总结一下某行业的碳排放趋势。看到那几十份几百页的文档,我当时脑子里只有一个念头:我是来写研报的,不是来练速读的。 于是,作为一个小程序媛,我决定用 RAG(检索增强生成)给自己撸个助手。 1. 为什么 RAG 是投研的“刚需”?大家都在用 ChatGPT,但直接把研报喂给它,它会告诉你“超出 Token 限制”。RAG 的逻辑很简单:先把文档切碎、存进向量库,等我提问时,AI 先去库里找相关的片段,再结合这些片段回答我。 我的发现:在 ESG 领域,数据极其分散。有的在年报里,有的在社会责任报告里,有的在新闻通稿里。RAG 最大的价值,不是生成文字,而是溯源。 2. 🛠️ 避坑指南:AI 的“幻觉”比你想象中更真实刚跑通 demo 的时候,我问它:“某公司的碳中和目标是什么?”它信誓旦旦地回答:“2030 年实现净零排放。”我一查原件,好家伙,原件说的是“2030 年实现运营层面碳中和”。这两者差得可不是一点半点! 我的反思:AI 的“总结能力”太强,以至于它会把模糊的概念“美...
“业绩会”里的真心话:我用 RAG 自动抓出管理层在 Earnings Call 里的“情绪锚点”
Created2025-07-25|投研与数据学习笔记
哈喽大家好,我是小叶。 今天想带大家聊一个非常实战、甚至带点“心理博弈”的投研场景:业绩说明会(Earnings Call)的自动化分析。 如果你是买方研究员,你一定听过业绩会。 场景:管理层宣读完 PPT,进入 Q&A 环节。 博弈:分析师抛出尖锐问题(比如:“为什么二季度毛利下滑了?”),管理层往往会用一些复杂的辞令来应对。 痛点:全场一个多小时,PDF 几万字。你如何快速定位到那些“管理层不敢正面回答”或“语气出现微妙变化”的瞬间? 作为一个爱好开发的小程序媛,我去年尝试用 RAG (Retrieval-Augmented Generation) 构建了一个业绩会助手。今天想聊聊我的实战心得。 1. 为什么 RAG 是业绩会的“克星”?业绩会是高度非结构化的对话。 长文本:全文太长,直接塞给大模型(LLM)会被切断,或者因为它太长而产生“幻觉”。 多说话人:需要区分是哪个分析师问的,哪个高管回的。 语义模糊:比如管理层说“我们在努力改善……”,这在语义上是积极的,但在语境下(毛利大幅下滑)其实是负面的信号。 我的反思:RAG 最大的价值在于上下文检索。它能...
12
avatar
xtbb
热 爱 可 抵 岁 月 漫 长
Articles
16
Tags
62
Categories
20
Follow Me
Announcement
今天还是不想起床
Recent Posts
大模型会读“潜台词”吗?当 LLM 遇上财报情绪分析2026-03-07
“黑盒”里的正义:我为什么坚持在信用评分里做 XAI?2025-12-25
当 Transformer 遇上波动率预测:它真的比 LSTM 强吗?2025-12-15
在金融圈里“撸码”:我的 Pandas、Linux 和 Git 保命工具箱2025-12-05
“炼金”还是“炼心”?当我在量化里用强化学习跑赢基准的那一刻2025-11-20
Categories
  • 个人1
  • 信贷评估3
    • 学习笔记3
  • 学习分享1
    • 计算机1
  • 技术趋势1
    • 学习笔记1
  • 投研与数据3
Tags
NLP Git WOE 可解释性AI 模型监控 LGD 投研报告 时间序列 投研 情绪分析 评分卡 深度学习 Transformer 债券 金融风控 业绩说明会 SHAP 语义分析 ESG 公平性 Pandas RAG 经验分享 股吧 XAI 收藏 BERT 信用评分 GNN 小说 PD MLOps 情感分析 特征工程 Linux IV 量化交易 LIME 经历 凸性
Archives
  • 三月 2026 1
  • 十二月 2025 3
  • 十一月 2025 2
  • 十月 2025 1
  • 九月 2025 1
  • 八月 2025 1
  • 七月 2025 1
  • 六月 2025 1
Website Info
Article Count :
16
Unique Visitors :
Page Views :
Last Update :
© 2025 - 2026 By xtbb
备案号:赣ICP备xxxxx号-1
Search
Loading Database