当 Transformer 遇上波动率预测：它真的比 LSTM 强吗？

Created2025-12-15|Updated2025-12-15|量化投资学习笔记

|Post Views:

哈喽大家好，我是小叶。

最近在整理一份关于“高频波动率预测”的笔记。如果你关注深度学习在金融领域的应用，一定听过 Transformer。现在的 NLP 和 CV 全是 Transformer 的天下，所以很多小伙伴自然而然地觉得：既然它在翻译和图像上无往不利，那在预测股价波动率上，也应该是“降维打击”吧？

但我现在的思考是： 在金融这种低信噪比、非平稳的时间序列里，Transformer 真的比 LSTM 这种“老将”强吗？

1. 那些被“注意力”带跑的噪声

Transformer 的核心是 Self-Attention（自注意力机制）。它能捕捉长程依赖（Long-range dependency）。比如：一年前的某次美联储加息，可能对今天的市场情绪依然有影响。

听起来很完美，对吧？但别忘了，金融数据的长程依赖极其微弱，而短程的噪声却极其强烈。

我的反思：
我之前做过一个实验，用 Transformer 预测 1 分钟级的实现波动率（Realized Volatility）。结果发现，模型在训练集上表现得像神一样，但在测试集上直接“翻车”。
原因很简单：Attention 太敏感了。它会试图在那些根本没逻辑的随机波动里寻找“关联”。而 LSTM 因为有遗忘门（Forget Gate），反而能过滤掉一部分短期噪声，表现得更鲁棒。

2. 🛠️ 实战中的小技巧：别让模型只盯着价格看

如果你现在也在做时间序列预测，我建议你别只把 close 或者 returns 喂给 Transformer。试试这几个思路：

多头注意力（Multi-Head）的行业对齐：我尝试把不同的 Head 分配给不同的行业因子。比如，一个 Head 专门盯着宏观指标，一个 Head 专门盯着微观盘口。这种“分工明确”的 Attention，比胡乱捕捉全场信息的 Attention 要强得多。
位置编码（Positional Encoding）的改进：传统的正余弦编码在金融里效果一般。我改用了 Relative Positional Encoding（相对位置编码），因为金融里的“时间距离”比“绝对时间”更重要。
结合 GARCH 模型：这是我的“独门秘籍”。我会先把数据通过传统的 GARCH 模型跑一遍，把提取出的条件方差（Conditional Variance）作为 Transformer 的一个输入特征。这种“传统+现代”的组合，比纯深度学习要稳定得多。

3. 给同行的一点真心话

现在大家都在卷模型结构，卷参数量。但在金融领域，特征工程（Feature Engineering）永远是王道。

我曾见过一个用简单的线性模型（Linear Regression）加上精心构造的“盘口失衡因子”，跑赢了一个用 24 层 Transformer 的大佬。

我的感悟：
模型只是工具，对数据的理解才是灵魂。Transformer 的强大在于它的并行能力和表达能力，但在金融这种“小数据、高噪声”的环境里，它很容易变成一个过拟合的怪兽。

4. 碎碎念

其实，做预测的人都有点“知其不可而为之”的执着。我们知道市场是不可预测的，但我们总想在混沌中找那一丝丝确定性。

最近我在研究 Informer 和 Autoformer，这些专门为长序列设计的 Transformer 变体。发现它们在捕捉周期性波动（比如季节性效应）上确实有一套。等我跑通了 A 股的周度效应测试，再跟大家细聊。

合规提醒：本文内容仅为技术交流。波动率预测不代表投资建议，实盘操作需谨慎。

Author: xtbb

Link: http://bin-hy.github.io/transformer-volatility-rethinking/

Copyright Notice: All articles on this blog are licensed under CC BY-NC-SA 4.0 unless otherwise stated.

深度学习时间序列 Transformer LSTM 波动率预测思考

Related Articles

“洗钱”黑洞里的“侦探”：我用图神经网络抓坏人的那些事

哈喽大家好，我是小叶。今天想跟大家聊聊反洗钱（AML）。如果你在银行工作，你一定知道那套“基于规则”的系统有多头疼。比如：某人一天转账超过 5 万，系统就会报警。但现在的犯罪分子可不是吃素的。他们会把一笔巨款拆成几千个小额账户，在深夜通过几十个国家的服务器疯狂流转。传统的系统在这些“蚂蚁搬家”面前，简直就像是纸糊的。作为一个爱好开发的小程序媛，我去年参与了一个基于图神经网络（GNN）的 AML 项目。今天想聊聊我的实战心得。 1. 为什么“图”比“表”更适合抓坏人？传统的数据库是“表格”式的。每个人都是一行数据。但洗钱的本质是连接。账户 A 转给账户 B。账户 B 马上分拆转给账户 C、D、E。 C、D、E 又通过几层转账汇集到账户 Z。在 GNN 的眼里，每个账户是一个“节点”，每笔交易是一条“边”。这就不再是孤立的数据点，而是一个活生生的交易网。我的反思：传统的逻辑是“看人”，而 GNN 的逻辑是“看邻居”。如果你的账户本身很干净，但你的邻居全是一堆刚开户就大额转账的异常节点，那你大概率就是“网”里的一环。这种**消息传递（Message Passing...

“股吧”千万条，风险第一条：我从散户情绪里挖出的反转信号

哈喽大家好，我是小叶。今天想跟大家聊聊“另类数据（Alternative Data）”。如果你在量化团队待过，你一定知道现在因子的内卷程度。传统的价量因子、财务因子，早就被大家挖烂了。于是，大家开始把目光投向了一些奇奇怪怪的地方：卫星遥感、港口流量、信用卡消费记录，还有——社交媒体情绪。作为一个上财在读的小程序媛，我去年给自己撸了一个“股吧爬虫+情绪分析仪”。今天想聊聊我在这些散户情绪里看到的真相。 1. 为什么“股吧”的情绪是反转信号？很多人觉得，股吧里全是噪声。大家在里面吵架、谩骂、吹捧。但如果你用 NLP 模型（比如我微调过的 FinBERT）去批量处理这些文字，你会发现一个非常有意思的现象：极致的情绪，往往是市场的拐点。我的反思：当一个股票的股吧里全是“涨停”、“起飞”、“YYDS”的时候，往往就是散户情绪最高亢、筹码最集中的时刻。这时候，聪明钱已经在悄悄撤退了。相反，当股吧里全是“退市”、“垃圾”、“再也不碰”的时候，绝望的情绪反而孕育着底部的反弹。这就是典型的 “逆向投资逻辑”。我用 Python 写了一个简单的策略：当情绪得分（Sentiment Scor...

“业绩会”里的真心话：我用 RAG 自动抓出管理层在 Earnings Call 里的“情绪锚点”

哈喽大家好，我是小叶。今天想带大家聊一个非常实战、甚至带点“心理博弈”的投研场景：业绩说明会（Earnings Call）的自动化分析。如果你是买方研究员，你一定听过业绩会。场景：管理层宣读完 PPT，进入 Q&A 环节。博弈：分析师抛出尖锐问题（比如：“为什么二季度毛利下滑了？”），管理层往往会用一些复杂的辞令来应对。痛点：全场一个多小时，PDF 几万字。你如何快速定位到那些“管理层不敢正面回答”或“语气出现微妙变化”的瞬间？作为一个爱好开发的小程序媛，我去年尝试用 RAG (Retrieval-Augmented Generation) 构建了一个业绩会助手。今天想聊聊我的实战心得。 1. 为什么 RAG 是业绩会的“克星”？业绩会是高度非结构化的对话。长文本：全文太长，直接塞给大模型（LLM）会被切断，或者因为它太长而产生“幻觉”。多说话人：需要区分是哪个分析师问的，哪个高管回的。语义模糊：比如管理层说“我们在努力改善……”，这在语义上是积极的，但在语境下（毛利大幅下滑）其实是负面的信号。我的反思：RAG 最大的价值在于上下文检索。它能...

“炼金”还是“炼心”？当我在量化里用强化学习跑赢基准的那一刻

哈喽大家好，我是小叶。今天想跟大家聊点硬核的，但也想说点大实话。如果你最近关注量化投资，肯定被“深度强化学习（DRL）”刷屏了。什么 FinRL、DQN 选股，听起来就像是拿到了打开财富之门的金钥匙。我去年也迷上了这个。作为一个上财在读、又爱撸码的小程序媛，我当时觉得：既然 AlphaGo 能下赢围棋，那我喂给它全市场的 K 线和因子，它不就能帮我实现财务自由了吗？ 1. 那些被“神化”的 DRL 曲线当时我照着一篇顶会论文复现了一个基于 PPO（Proximal Policy Optimization）的资产组合优化策略。在不考虑手续费和滑点的“理想国”里，那条净值曲线简直美得不像话，年化收益 40%+，夏普比率 3.0。我当时兴奋得差点就在校友群里发红包了。但当我冷静下来，把万分之三的滑点和千分之一的印花税加进去后，曲线瞬间塌方。我的反思：很多 DRL 在量化上的“成功”，其实是拟合了噪声，或者是通过高频换仓在赚那些根本拿不到的虚假利润。强化学习最大的敌人不是模型，而是真实交易里的摩擦成本。 2. 状态空间（State Space）的真相：你喂的是信息还是垃圾？写代...

在金融圈里“撸码”：我的 Pandas、Linux 和 Git 保命工具箱

哈喽大家好，我是小叶。今天想跟大家聊聊点“接地气”的东西。如果你是一个在上财在读、又想进金融圈撸码的小程序媛（或者小哥哥），你一定听过很多高大上的算法：Transformer、强化学习、GNN…… 但作为一个在量化团队实习过、也踩过无数坑的人，我想说：在金融实战里，能救命的往往不是大算法，而是你的“基本功”。如果你连 Pandas 里的时间序列索引都搞不清楚，或者 Linux 服务器崩了你只会重启，那你的“大模型”也只能是空中楼阁。今天想分享我的三个“保命工具箱”。 1. Pandas：不仅是表格，更是“时间机器”在金融领域，最核心的数据是 Time Series（时间序列）。坑 1：Look-ahead Bias（未来函数）。如果你在计算技术指标时，不小心用到了当天的收盘价来预测当天的涨跌，那你的回测曲线会美得让你怀疑人生。坑 2：Reindexing（重索引）。停牌的股票、节假日的行情，这些坑在数据对齐时会让你抓狂。我的实战笔记：我现在的保命代码里，一定会加上这一行： 12# 强制按交易日历重新索引，填充空值df = df.reindex(trading_cal...

信用评分卡里的“老江湖”：PD、LGD 与 WOE 的实战哲学

哈喽大家好，我是小叶。今天想跟大家聊聊信用风险管理里的“基本功”。如果你在银行风控部门，你一定听过这几个字母缩写：PD、LGD、EAD。作为一个上财在读、又爱撸码的小程序媛，我刚入行的时候觉得：这些不就是几个乘法公式吗？有什么好学的？直到我真正去参与了一个信用评分卡（Scorecard）的建模过程，我才发现：这些指标里藏着对人性和风险最深刻的博弈。 1. PD、LGD、EAD：风险的三个维度课本上的公式很简单：EL = PD * LGD * EAD（预期损失 = 违约概率 * 违约损失率 * 违约风险暴露）。但我现在的理解是： PD（违约概率）：他会不会跑路？这是对还款意愿和还款能力的判断。 LGD（违约损失率）：如果他跑了，我能追回多少？这是对抵押品和追偿能力的判断。 EAD（违约风险暴露）：他跑的那一刻，欠了我多少钱？这通常取决于额度管理。我的反思：很多模型只盯着 PD 看，觉得只要预测准了谁会违约就万事大吉。但在真实的银行业务里，一个大额订单的违约，抵得上几千个小额订单的正常还款。如果你不把 LGD 和 EAD 考虑进去，你的风控策略就是“捡了芝麻丢了西...

Comments

ArtalkGiscus

Loading Database