Skip to content

机器学习预测股票走势,JFE发文颠覆“有效市场假说”

写在前面的话:Journal of Financial Economics(金融经济学杂志)发表了“Charting by machines”一文,该文章通过使用机器学习根据历史表现预测股票收益来测试有效市场假说,这些预测可以有力地预测未来股票收益的横截面。预测能力在大多数子周期中都成立,并且在最大的500只股票中表现强劲。预测函数具有重要的非线性和相互作用,随时间非常稳定,并能捕捉到与动量、反转和现有技术信号不同的效果。这些发现质疑了有效市场假说,并表明技术分析和图表具有价值。中国人民大学金融科技研究所的殷欢乐对研究核心部分进行了编译。我学习后觉得十分有必要分享给大家。

来源 | Journal of Financial Economics

作者 | Scott Murray,Yusen Xia,Houping Xiao

引言

弱有效市场假说规定,仅基于从描述股票历史表现的图表(以下简称价格图表)中可辨别的信息来构建盈利的投资组合是不可能的。因此,技术分析或图表应该是一种无用的投资技术。技术分析的学术研究广泛支持这一预测。尽管学术文献普遍拒绝使用技术分析,但它仍然被投资经理广泛使用。技术分析的持续广泛使用表明,学术研究可能尚未充分发现其优点,有必要进行进一步研究。 本文通过检查机器学习 (以下简称 ML) 生成的预测是否能预测未来股票收益的横截面来测试弱有效市场假说

这些预测仅基于从历史价格图中容易辨别的数据,特别是过去12个月的累计股票收益。本文发现强有力的证据表明,基于ML的预测具有经济上重要且统计上高度显著的预测能力。这种预测能力在本文关注的1963年7月至2022年12月测试期的大多数子期间都占主导地位,包括最近的2015年1月至2022年12月子期间,并且在最大的500只股票中仍然保持强劲。预测函数随时间非常稳定且高度复杂,具有大量对预测很重要的非线性和交互成分。最后,本文基于 ML 的预测的预测能力无法通过众所周知的动量(Jegadeesh 和 Titman, 1993)和反转(Jegadeesh, 1990)效应来解释,也无法通过之前研究过的技术或基于 ML 的信号来解释。

本文的工作为三大研究领域做出了贡献。首先,本文补充了研究过去回报是否包含有助于预测未来回报的信息的文献,这相当于关于弱式有效市场理论的文献。这类文献中最突出的发现是前面提到的动量和反转效应。其中一部分文献明确研究了技术分析和图表的有效性。有几篇论文研究了技术信号预测大盘指数或多元化投资组合表现的能力。Brock等人(1992)发现简单的技术信号可以预测道琼斯指数的未来回报。尽管技术分析在实践中被广泛使用(Menkhoff, 2010; Lo和 Hasanhodzic, 2010),但关于技术信号预测能力的研究却很少。本文发现本文检测到的预测模式会随着时间的推移而持续存在,这表明图表分析师有可能在相对较长的时间内学习这些模式。本文使用投资组合分析作为本文的主要实证方法解决了Jegadeesh (2000)的盈利能力批评。因此本文的主要贡献是证明技术分析的优点,从而提供与有效市场假说相矛盾的证据,以克服对该领域研究的批评。

其次,本文在越来越多的文献中使用机器学习来了解股票收益的横截面。Messmer (2017)、Messmer和 Audrino (2020)以及Freyberger 等人 (2020)使用机器学习来识别股票层面特征与预期股票收益之间的关系。Kelly等人 (2019)、Kozak 等人 (2020)、Lettau 和 Pelger (2020)、Bryzgalova 等人 (2023)使用机器学习从特征中提取潜在因子、因子暴露和风险溢价。本研究的一个一致主题是使用机器学习来综合广泛的股票级变量中的信息,先前的研究已经发现这些信息与预期股票收益相关。本文的不同之处在于,预测仅基于过去 12 个月的累计收益。机器学习在本文的环境中的主要优势在于它能够检测过去和预期未来收益之间高度复杂的关系。这与以前的工作形成了鲜明对比,以前的工作利用机器学习从大量预测变量中生成有意义的预测,而本文的目标是评估技术分析对预测未来股票回报的有效性,这导致本文使用机器学习来仅预测预期回报。

最后,本文通过展示事前优化模型选择的有效性,为使用机器学习进行资产定价应用的更广泛文献做出了贡献。大多数使用机器学习预测回报的研究都使用某种形式的模型优化程序来选择模型参数。Gu等人(2020 年)比较了不同机器学习模型在从大量股票水平特征生成风险溢价估计值方面的表现,但没有检查样本外表现是否与优化过程中的表现相关。本文发现不同机器学习模型的优化期和测试期表现之间存在很强的相关性,这表明这种优化过程是有效的。

主要内容

本文研究中使用的股票数据来自 CRSP。本文的样本包含 192701-202212月份t的股票、月份观测值。在每个月t中,样本包含在该月最后一个交易日的所有股票t-1,是纽约证券交易所、美国证券交易所或纳斯达克上市的美国公司的普通股。为了确保为样本中的每只股票构建一年的历史价格图可行,本文要求每只股票在每个月都有非缺失的收益通过t-12至t-1。最后,由于本文的重点分析按市值对股票进行加权,因此本文要求样本中每只股票截至月底的市值,本文将其定义为流通股数乘以每股价格,可以计算出来。

本文主要检验截至月底计算的基于机器学习的预测能力t-1预测第t月股票收益的横截面。 首先,本文研究基于 ML 的回报预测与未来股票回报横截面之间的关系。 弱有效市场假说预测MLER应该没有能力预测未来股票收益的横截面变化。

本文通过检查基于以下因素对股票进行排序而形成的投资组合的表现来检验弱有效市场假说,最终得到:

其次,如果相关平均收益可以补偿风险,则有效市场假说的改进版本允许有利可图的技术策略。因此,本文采取全样本因子模型回归、短亚周期因子模型回归以及基于风险的解释的附加测试等方式,结果表明,通过基于 ML 的预测进行排序形成的投资组合的平均回报模式没有基于风险的解释。

接下来,本文还检查基于 ML 的预测能力是否特定于某些子周期,以及对大型股票的预测能力,结果表明基于 ML 的预测在固定时期或者大型股票中的预测能力仍然很强大。

结论:本文通过检查基于机器学习的预测(这些预测从历史价格图中容易观察到的过去回报数据生成)是否可以预测未来股票回报的横截面来测试弱有效市场假说。本文首先使用 192701-196306 期间来确定用于生成基于机器学习的预测的最佳机器学习模型。本文发现,使用具有长短期记忆的卷积神经网络作为机器学习架构,使用均方误差作为损失函数,在损失函数中对观测值进行加权,使每个月的观测值具有相同的总权重,每个月的每只股票具有相等的权重,并使用未来股票回报的标准化度量作为因变量,可以优化 192701-196306 优化期间的机器学习模型性能。
本文使用样本期早期的数据来确定最佳机器学习模型,从而克服了对数据挖掘和结果样本外有效性的担忧。本文使用选定的 ML 模型在 1963 年 7 月至 2022 年 12 月的测试期间生成未来股票收益的样本外预测。投资组合分析表明,基于 ML 的预测是未来股票收益横截面的有力预测指标。因子分析和其他指标并未表明与基于 ML 的预测相关的平均收益变化反映了风险补偿。进一步的测试表明,基于 ML 的预测在本文主要测试期的大多数子期间(包括最近的 2015 年 1 月至 2022 年 12 月)的预测能力都很强。
本文还发现,这些预测在本文样本中最大的 500 只股票中是有效的,这表明预测能力不仅限于小型和流动性差的股票。本文的研究结果有力地反驳了有效市场假说的主要预测,即盈利的投资组合不能仅根据历史收益中包含的信息来构建。虽然人们可能会合理地认为,动量和反转效应已经是与有效市场假说相悖的有力证据,但过去价格模式与未来收益之间关系的复杂性表明,违反有效市场假说的情况比以前理解的要复杂得多。
本文的研究结果还表明,技术分析或图表比学术界承认的更有价值,并解释了为什么这种技术在投资从业者中仍然很流行

本文内容仅仅是技术探讨和学习,并不构成任何投资建议。

Published inAI&Invest专栏

Be First to Comment

    发表回复