Skip to content

基于方差有界的强化学习算法,挖掘稳定 Alpha 因子公式

作者:老余捞鱼

原创不易,转载请标明出处及原作者。

写在前面的话:本文介绍了一种名为QuantFactor REINFORCE(QFR)的新型基于强化学习的算法,旨在挖掘具有稳定性的公式化Alpha因子。该算法通过改进传统的REINFORCE算法,引入了新的基线和奖励机制,以降低算法在训练过程中的高方差问题,并提高因子对市场波动的适应性。论文通过在多个真实资产数据集上的实验,证明了QFR算法在提高资产回报相关性以及获取超额回报方面,相较于现有挖掘方法具有显著优势。

第1章 引言

本文聚焦于计算金融领域中Alpha因子的挖掘,Alpha因子是从历史金融市场数据中提取的信号,用以预测资产的未来回报并寻求超越市场平均水平的利润。本章明确了Alpha因子的两种表现形式:深度模型和公式形式。深度模型虽然表达能力强,但因为其“黑箱”特性,在风险敏感的市场中难以被投资者接受。相比之下,公式形式的Alpha因子因为其更好的可解释性而受到市场参与者的青睐。 作者还探讨了现有的Alpha因子挖掘方法,包括基于树的模型和遗传编程等。这些方法虽然在一定程度上能够挖掘出有效的Alpha因子,但它们在处理复杂的非线性关系和高维数据时可能会遇到性能瓶颈,并且计算成本较高。此外,这些方法在探索大规模表达式的搜索空间时常常遇到困难。 作者指出了最近提出的一个有前景的框架,该框架使用深度强化学习来生成公式化的Alpha因子,并且迅速获得了学术界和工业界的研究关注。这一框架通过将Alpha因子的生成过程模拟为马尔可夫决策过程(MDPs),并直接训练策略以生成一组协作的公式化Alpha因子,旨在克服传统树模型和遗传编程的局限性。

第2章 相关工作

A. 自动挖掘Alpha因子

Alpha因子通常以深度模型或公式的形式表现。深度模型形式的Alpha因子通过监督学习进行训练,利用多层感知器(MLP)、长短期记忆网络(LSTM)和Transformer等序列模型从资产的历史数据中提取特征。强化学习在计算金融和金融科技领域受到关注,尤其在Alpha因子挖掘、投资组合优化和风险管理设计中。这些方法通过将市场特征建模为状态,将买卖订单建模为动作,将盈亏建模为奖励,训练代表Alpha因子的深度策略模型。 另一方面,公式形式的Alpha因子因其更好的可解释性而受到市场参与者的偏好。过去,这些公式化Alpha因子通常由人类专家使用他们的领域知识和经验构建,通常体现了清晰的经济原理。然而,依赖人类专家的Alpha因子挖掘过程存在诸如主观性强、耗时、风险控制不足和成本高等缺点。为了解决这些问题,提出了自动挖掘公式化Alpha因子的算法,如GBDT、XGBoost、LightGBM等树模型,以及遗传编程(GP)等启发式算法。这些算法能够快速发现大量新的公式化Alpha因子,而无需人类专家的领域知识或经验,它们在性能上与更复杂的基于深度学习的Alpha因子相当,同时保持了相对较高的可解释性。

B. REINFORCE算法

REINFORCE算法由Williams首次提出,是一种直接且通用的算法,适用于可以建模为MDPs的广泛任务。然而,在具有随机状态转移和即时奖励的MDPs中,与演员-评论家方法相比,REINFORCE算法通常表现不佳。演员-评论家方法利用基于价值的技术来降低方差,并整合时间差分学习来实现动态规划原理,因此更受青睐。REINFORCE算法由于缺乏价值网络,在处理具有轨迹级奖励的环境中可能更为适合。本章还探讨了将基线值纳入REINFORCE算法的研究,包括在在线学习环境中系统地进行基线使用的正式检查,以及研究REINFORCE算法的遗憾。最近的研究深入探讨了多臂老虎机优化的复杂性,发现在REINFORCE中使用期望的梯度上升而不是随机梯度上升可以导致全局最优解。该研究扩展到了自然策略梯度中基线值的功能,得出了自然策略梯度中方差减少并非关键的结论。最近的工作发现REINFORCE适合于在大型语言模型中从人类反馈中进行强化学习,并提出了基线值作为通过比较随机响应与贪婪响应的奖励来进行规范化的方法。

第3章 问题表述和预备知识

A. 预测资产价格的公式化Alpha因子

考虑一个真实的市场,包含个资产在个交易日内的表现。在每个交易日,每个资产由一个特征向量表示,该向量由最近天内的个原始市场特征组成,如开盘、最高、最低、收盘和成交量等。定义一个Alpha因子函数,将给定交易日所有资产的特征矩阵转换为Alpha值。这个函数将映射到一个向量,其中包含了每个资产在交易日的Alpha因子值。为了衡量公式化Alpha因子的有效性,需要一个真实的资产价格数据集,其中是资产的5日回报率。新生成的公式化Alpha因子将被添加到Alpha因子池中,并通过组合模型计算组合因子值,该模型将在第IV节详细讨论。公式化Alpha因子是可以用逆波兰表示法(RPN)表示的数学表达式,包括各种运算符、原始交易量-价格特征、基本面特征、时间差和常数。这些表达式可以自然地由表达式树表示,每个非叶节点代表一个运算符,节点的子节点代表正在操作的原始交易量-价格特征、基本面特征、时间差和常数。每个这样的表达式都有一个唯一的后序遍历,使用RPN表示。

B. 挖掘公式化Alpha因子的MDPs

将生成等价于公式化Alpha因子的线性序列的过程建模为MDP,可以描述为,其中和分别表示有限状态和动作空间,(P)是定义状态转移的转移函数,是为状态-动作对分配值的奖励函数。目标是获得策略,其中是训练参数。该策略从有限的替代标记集合中生成标记。MDP中的每个状态对应于表示当前生成部分表达式的标记序列,表示为,采样过程被建模为。动作是当前生成部分表达式之后的下一个标记。这个过程一直持续到遇到SEP标记或达到最大长度。初始状态始终是BEG标记,因此有效的状态始终以BEG开始,并跟随着先前选择的标记。显然,任何生成的序列都不能保证是合法的RPN序列,因此只允许在某些状态下采取特定的动作,以确保RPN序列的正确格式。当和已知时,就被唯一确定,这意味着状态转移函数满足狄拉克分布:

这些MDPs框架中的优化目标是学习一个策略,以最大化随时间的期望累积奖励:非零奖励只在最后一步收到,评估完整公式化因子表达式的质量,而不是单个标记:

其中。语法上正确的表达式可能由于某些运算符的限制而无法评估。例如,对数运算符标记不适用于负值。这种无效性不能直接检测到。因此,这些表达式被分配了一个奖励(-1)(IC的最小值),以阻止策略生成这些表达式。

C. REINFORCE与PPO的比较

这些MDPs的自然解决方案是PPO算法,它使用经典的策略梯度:

其中代表在策略下发生轨迹的概率,代表轨迹的累积奖励。MDPs中的每个状态对应于表示当前生成部分表达式的标记序列。初始状态始终是BEG,因此有效状态始终以BEG开始,并跟随着先前选择的标记,这意味着,当前策略是,得分函数,

由于IC只能在完整表达式生成后计算,因此只有最后一步的奖励非零。然后策略梯度(5)可以被重写为:

第4章 更好的强化学习在公式化Alpha因子挖掘中的应用

A. 提出算法

算法1: QFR

B. 奖励塑造

使用IR测试作为奖励塑造可以引导QFR算法在优化过程中更多地关注因子的长期稳定性和一致性,而不仅仅是短期利润峰值。这种奖励塑造方法引导策略网络寻找在不同市场条件下保持稳定预测能力的因子,减少过度拟合训练数据的风险。它有助于减少模型对特定市场条件的过度依赖,从而增强因子在不同市场环境中的泛化能力。

C. 理论分析

第5章 数值结果

A. 环境设置

实验使用了来自中国A股市场和美国股市的数据,特别是关注了中国证券指数300(CSI300)、中国证券指数500(CSI500)、中国证券指数1000(CSI1000)、标准普尔500指数(S&P 500)、道琼斯工业平均指数(Dow Jones Industrial Average)和纳斯达克100指数(NASDAQ 100)的成分股,来模拟挖掘公式化Alpha因子的MDPs。为了确保可重复性,实验只识别了六个主要特征来生成公式化Alpha因子,包括开盘价、收盘价、最高价、最低价、交易量和成交量加权平均价。目标是生成与5日资产回报具有高信息系数(IC)的公式化Alpha因子。数据集被划分为三个子集:2016/01/01至2020/01/01的训练集,2020/01/01至2021/01/01的验证集,以及2021/01/01至2024/01/01的测试集。所有价格和数量数据都根据2023/01/15的调整因素进行了前向分红调整。为了评估QFR框架与传统公式化Alpha生成方法的性能,采用了树模型、启发式算法、端到端深度模型算法和可解释的强化学习算法作为基线算法。

B. 与其他强化学习的比较

在解决第III章定义的MDPs时,QFR算法在所有六个指数中的表现均优于AlphaGen中采用的PPO。通过在中美六个指数成分股上使用典型的最新强化学习算法(包括TRPO、PPO和A3C)进行实验,展示了QFR的性能。由于QFR利用了奖励塑造,而基线算法没有,因此在比较不同算法的学习曲线时,不使用奖励作为指标。相反,使用等级信息系数(Rank IC)代替奖励来评估策略网络在训练过程中的性能。Rank IC评估Alpha值的等级与股票回报等级序列之间的关联。Rank IC越高越好。可以观察到,QFR在训练过程结束时在所有六个指数中的性能都优于其他RL算法。与表现最佳的PPO算法相比,QFR在指标上提高了3.83%,进一步验证了丢弃与价值网络相关的元素、引入减法基线值以及合理的奖励塑造的有效性。

C. 因子评估

将基线算法和QFR算法应用于CSI300和CSI500指数的成分股,并基于IC和Rank IC两个指标评估它们的性能。IC定义如(1)。两个指标越高越好。注意,所有算法仅针对IC指标进行优化。结果如表IV所示。MLP、XGBoost和LightGBM的性能较差,因为它们使用了开源的Alpha集。另一方面,AlphaGen倾向于收敛于局部最优,导致在训练数据上过拟合。尽管GP通过保留多样化的种群来缓解这个问题,但它仍然难以生成在组合中表现出协同作用的Alpha因子。与AlphaGen相比,QFR在解决挖掘公式化Alpha因子的MDPs方面表现更优。QFR的优越性能归因于通过丢弃与价值网络相关的元素来加速收敛过程,以及合理的奖励塑造。

D. 投资模拟

为了进一步展示QFR算法在更现实的投资环境中的有效性,使用各种算法提取的因子进行了投资模拟。具体来说,这些因子被应用于指数增强策略,在该策略中,股票首先根据它们的因子值进行排序,然后选择前50只股票并执行再平衡操作(出售当前投资组合中不在前k只股票中的那些,购买不在当前投资组合中但在前k只股票中的那些)。在CSI300指数的测试期间(2021/01/01至2024/01/01)进行了回测。使用累积回报(利润和损失)评估因子在回测中的性能,该指标的最终值越高越好。回测结果如图6所示。虽然QFR在整个回测过程中并不总是表现最佳,但它在最终仍然表现良好,并与其他基线算法相比实现了最高的累积回报。

此外,根据中国隐含波动率指数(CIMV),选择了高波动期(2021/01/01-2021/03/24,CIMV > 20%)、波动率快速变化期(2022/07/01-2022/09/15,CIMV下降7.43%)和低波动期(2023/01/01-2023/03/31,CIMV < 20%),以进一步展示每个算法在不同市场波动条件下的因子性能。然后分析了每个时期的盈亏情况,结果如图7所示。QFR在各种波动条件下都能实现最高利润。特别是在高波动期间,QFR比基线算法有显著优势。

第6章 结论

本文总结了QFR算法的主要贡献和优势,指出该算法在挖掘公式化Alpha因子方面展现出了优越的性能,包括更高的资产回报相关性和更强的超额利润获取能力。此外,论文还指出QFR算法的可解释性、稳定性和效率使其成为量化金融应用中的一个有价值工具,并建议未来的研究方向可以探索更复杂的奖励塑造机制,并将QFR算法应用于投资组合优化和风险管理等其他金融任务。

本文作者不仅来自国内外知名院校,同样包含国内知名私募的创始人。


文内容仅仅是技术探讨和学习,并不构成任何投资建议。

转发请注明原作者和出处。

Published inAI&Invest专栏

Be First to Comment

    发表回复