Skip to content

可解释的股票运动预测:LLMFactor基于大模型和SKGP

写在前面的话:本文介绍LLMFactor 的新框架,该框架使用大型语言模型(LLMs)通过顺序知识引导提示(SKGP)来提取影响股票走势的因素,并提供可解释的股票运动预测。

1. 引言 (Introduction)

  • 介绍了人工智能(AI)在金融领域的应用,特别是预测股票走势的重要性。
  • 讨论了有效市场假说(EMH)及其局限性,以及如何通过识别市场效率的偏差来寻求超额回报。
  • 强调了新闻报道、公司间关系和行业间联系在理解市场动态中的重要性。
  • 提出了使用“因素”来增强股票运动预测的新任务,并介绍了 LLMFactor 框架的概念。

2. 相关工作 (Related Work)

相关工作涵盖了以下三个主要领域:

  1. 使用文本数据预测股票走势 (Stock Movement Prediction using Textual Data)
    • 介绍了自然语言处理(NLP)技术在预测股票市场趋势方面的应用。
    • 举例说明了如何使用推文和历史价格数据进行时间依赖性预测。
    • 讨论了多模态数据(如金融文本数据和增强型股票相关性)的建模方法。
    • 强调了从文本数据中提取更细粒度的洞察力的重要性,比如识别公司事件作为股票运动的驱动力,以及媒体情绪与市场回报之间的显著关联。
  2. 使用 LLMs 进行时间序列预测 (Time-series Forecasting with LLMs)
    • 描述了大型预训练变换器(如 GPT 变体)的构建和它们丰富的知识库。
    • 指出了这些模型在分析时间序列数据方面的局限性,并讨论了如何调整 LLMs 以提高其在时间序列预测方面的能力。
    • 提到了使用提示方法将数值输入输出转换为文本提示,从而将预测任务框架为句子到句子的转换。
  3. 提示工程 (Prompt Engineering)
    • 讨论了通过精心设计的提示使 LLMs 有效处理各种任务的挑战。
    • 介绍了不同的提示策略,如链式思维(CoT)方法、生成知识提示技术和检索增强生成(RAG)技术。
    • 这些技术启发了本研究提出的顺序知识引导提示(SKGP)策略,旨在提高金融预测的准确性。

3. LLMFactor 框架 (LLMFactor)

本章详细介绍了 LLMFactor 框架,这是一个创新的系统,旨在通过大型语言模型(LLMs)提取影响股票市场动态的有利因素,并提供可解释的股票走势预测。

3.1 任务定义 (Task Definition)

任务定义部分明确了 LLMFactor 框架的目标:预测特定股票(stocktarget)在目标日期(datetarget)的价格走势。该任务利用与股票相关的新闻(newstarget)和历史股价序列(P),将股票价格序列转换为股票走势的二元表示(ˆP),其中上升用 1 表示,下降用 0 表示。目标是基于给定的日期、新闻和历史走势序列来预测下一个时间点的股票价格是上升还是下降。

3.2 顺序知识引导提示 (Sequential Knowledge-Guided Prompting, SKGP)

SKGP 是 LLMFactor 框架的核心策略,分为三个主要阶段:

    3.2.1 匹配和获取新闻背景知识

    第一阶段涉及匹配股票与相关新闻,并获取背景知识。通过使用填空提示(fill-in-the-blank)技术,LLMs 被引导生成与股票相关的背景知识,例如公司之间的关系。这一步骤对于理解新闻内容和预测股票走势至关重要。

    3.2.2 生成可能影响股票价格的因素

    第二阶段是从未加工的新闻中提取可能影响股票价格的关键因素。与传统的关键词提取或情感分析不同,这一阶段的目的是提取与股票市场动态更直接相关的因素,这些因素对于预测股票价格走势具有更高的解释性和可读性。

    3.2.3 预测股票价格走势

    第三阶段结合了前两步中提取的背景知识和因素,以及历史股票价格数据,来预测股票的未来走势。通过将时间序列数据转换为文本格式,LLMs 能够根据这些信息预测股票价格的上升或下降,并提供预测的理由。

3.3 股票市场中的因素分析 (Factor Analysis in the Stock Market)

因素分析部分展示了如何将 SKGP 技术应用于股票市场,以及如何利用提取的因素来提供对股票市场趋势的深入见解。例如,通过分析 Nvidia 股票价格的趋势,LLMFactor 能够识别出影响股价的关键因素,如“Nvidia 股票在一月份的收益”、“新产品公告”和“EV制造商选择 Nvidia Drive Thor”。

4. 实验 (Experiments)

本章是关于LLMFactor框架的实验评估,旨在验证其在股票市场预测方面的有效性和准确性。

4.1 数据集 (Datasets)

实验使用了四个基准数据集来评估LLMFactor框架的性能,包括:

  • StockNet:包含87个美国股市股票,以及相关的推文和2014年至2016年间的历史价格数据。
  • CMIN-US:涵盖美国股市前110支股票,以及2018年至2021年间的推文和历史价格数据。
  • CMIN-CN:包含中国股市CSI300指数中的300支股票,以及同期的推文和历史价格数据。
  • EDT:包含从2020年至2021年间的54,080篇新闻文章,以及相关的美国股市股票和价格信息。

4.2 评估指标 (Evaluation Metrics)

使用了以下两个主要评估指标来衡量预测模型的性能:

  • 准确率(Accuracy, ACC):预测正确的样本数占总样本数的比例。
  • 马修斯相关系数(Matthews Correlation Coefficient, MCC):衡量分类模型的平衡性和准确性的指标。

4.3 基线模型 (Baselines)

实验中对比了多种基线模型,包括:

  • 基于关键词的模型:如PromptRank、KeyBERT、YAKE、TextRank等,这些模型通过提取文本中的关键词来预测股票走势。
  • 基于情感的模型:如EDT、FinGPT、GPT系列模型等,这些模型通过分析文本的情感倾向来预测股票市场。
  • 基于时间序列的模型:如CMIN和StockNet,这些模型结合了文本和时间序列数据来预测股票走势。

4.4 实施细节 (Implementation Details)

详细介绍了实验的实施过程,包括:

  • 数据集的划分方法。
  • 关键词提取和情感分析的具体实现。
  • 使用的预训练模型,如gpt-3.5-turbo、gpt-4等,以及它们的参数设置。

4.5 结果 (Results)

展示了LLMFactor和其他基线模型在四个数据集上的性能对比结果。LLMFactor在所有评估方法上均优于其他方法,特别是在MCC指标上,显示出其在预测准确性和解释性方面的优势。

4.6 数据分析 (Data Analysis)

    4.6.1 消融研究 (Ablation Study)

    通过消融研究来评估LLMFactor中每个组成部分的贡献。研究发现,提取的因素层对整体性能的提升最为显著。

    4.6.2 案例研究 (Case Study)

    通过具体案例展示了LLMFactor在实际股票市场分析中的应用效果。例如,分析了苹果公司和特斯拉公司的股价变动,展示了LLMFactor如何结合公司背景知识、历史新闻和价格数据来提供股价变动的解释。

5. 结论 (Conclusion)

LLMFactor利用顺序知识引导提示(Sequential Knowledge-Guided Prompting, SKGP)策略,成功地集成了背景知识、股票相关因素和时间数据,以预测股票走势。通过在四个基准数据集上的严格测试,LLMFactor证明了其在准确性和解释性方面优于依赖关键词、情感分析和多模态数据输入的最新技术(state-of-the-art, SOTAs)。此外,本研究还指出了三个主要局限性,并对未来的研究方向提出了展望,包括改进时间数据到文本格式的转换方法、提高实验结果的可复制性,以及评估不同长度和类型文本中提取因素的质量。


本文内容仅仅是技术探讨和学习,并不构成任何投资建议。

Published inAI&Invest专栏

Be First to Comment

    发表回复