当前位置：首页 > article >正文

大型语言模型在金融市场中的预测能力

article 2025/1/5 9:12:34

“Predictive Power of LLMs in Financial Markets”

论文地址：https://arxiv.org/pdf/2411.16569

摘要

股票市场预测对于投资者来说至关重要，有助于他们制定获利或减少风险的策略。然而，由于市场数据中存在大量噪音，挑选合适的数据和模型来进行准确预测是一项挑战。大语言模型的发展为数据分析提供了新的途径。本研究旨在对比GPT与传统模型（例如BERT）在利用美联储《褐皮书》预测经济相关性方面的效能，从而评估经济状态对资产价格的影响。研究发现，《褐皮书》确实含有能够反映资产之间关系的信息，不过GPT模型显示出过度前瞻的倾向，而传统模型在这项任务上的表现更为出色。

简介

对于投资者而言，准确预判股市的涨跌始终是一项艰巨的任务。为了解市场走势，研究者们探索了多种方法，包括运用各种统计与机器学习模型以及分析社交媒体上的趋势，旨在发现能够最大化收益的投资策略。

随着大型语言模型的兴起，这一领域带来了新的可能性，本研究旨在探讨利用大型语言模型是否能洞察公众对市场的预期。请注意，投资市场存在不确定性，任何预测都伴随着风险，投资者应根据个人情况审慎判断，并考虑咨询专业理财顾问的意见。同时，投资决策应当基于可靠的信息来源，警惕投资欺诈行为。

挑战

市场数据通常包含大量噪声，表现出高度的波动性，并且容易受到新闻报道和重大事件的显著影响，这使得预测市场趋势变得异常困难。模型在处理这类数据时，往往容易对历史数据过拟合，导致其泛化能力不足，尤其在面对如疫情这样的突发事件时表现不佳。此外，新闻数据不仅复杂而且来源广泛，单靠一个信息源难以全面捕捉市场的动态变化。由于定量与定性数据中均存在噪声，市场预测因此面临诸多挑战。为了改善这种情况，采用大型语言模型并结合更高质量、更干净的数据集成为了一种有效的应对策略。

大语言模型的挑战

大型语言模型（LLM）的输出基于概率分布，这使得实验结果难以完全复制。此外，LLM 有可能产生所谓的“幻觉”，即给出错误或不相关的信息。由于这些模型本质上是黑箱操作，我们很难确定哪些输入元素对生成的输出是有贡献的。

相关工作

Kalyani (2016) 提议通过分析新闻的情感来预测股市趋势，但指出机器学习技术在提取非线性信息方面存在一定的局限性。Ren (2022) 则使用双向LSTM模型研究新闻对股价波动的影响，不过其采用的word2vec嵌入方法较为过时，难以充分捕捉长篇文章中的关键细节。Bybee (2023) 引入了大型语言模型（LLM）来解析新闻文章中的经济情感，并尝试以此预测预期收益，然而这种方法面对收益的高波动性时效果有限。

本研究旨在优化Bybee提出的方法，专注于预测股票与债券间的相关性及其价格变动，以帮助构建最优的投资组合。我们将利用每1-2个月发布的《美联储褐皮书》，该数据源提供了更为清晰和结构化的经济信息，相比频繁且杂乱的新闻报道，更适合用于深入的经济分析。

01 方法

数据

从1985年至2023年，我们收集了标普500指数（GSPC）的历史股价数据，以及从2003年中期到2023年的AGG债券数据。这些数据来源于Wharton Research Data Services和FRED，后者还提供了自1980年以来的各种债券收益率和ICE BofA美国公司指数的总回报指数。通过运行线性回归分析，我们发现最佳预测模型包括公司指数以及1年、2年、5年、7年和10年期债券的收益率，该模型的外样本R²值达到了0.9901。这表明模型在预测AGG债券价格时表现出较小的误差，具有较高的准确性。此外，每年有5个月份，来自12个州的《米尼阿波利斯联邦储备银行褐皮书》文章可以公开获取，这些资源易于抓取和使用。

相关性

为了定义股票和债券的真实相关性，我们通过计算它们的每日百分比变化来实现。利用GPT-3.5 Turbo模型分析经济状况相关的文章，我们将温度设置为0以确保结果的可重复性。该模型根据指定年份和提供的经济文章内容，预测股票与债券之间的相关性，并以0（表示负相关）、1（表示无相关）或2（表示正相关）的形式返回预测结果。此外，我们还可以通过一个0到10的连续范围更精细地询问相关性的程度，并计算概率p值以稳定相关性评估。对于超出模型上下文长度限制的文章，我们将采取分段处理或随机选取部分内容进行分析的方法。

Bert相关性

为了使BERT模型能够输出类似于GPT模型的值，我们设计了一个分类算法，该算法将实际相关性四舍五入为−1（负相关）、0（无相关）或1（正相关）。我们将数据根据相关性分为11个类别，并以此作为每月《褐皮书》文章的标签。训练数据涵盖了从1980年到2021年9月的时间段，模型共进行了10个训练周期。预测值的计算方法与GPT模型相同，最终生成了三种不同版本的相关性计算结果，以提供多样化的视角和验证。

全部相关性

实验中使用的相关性包括：

- - - 原始的Beige相关性（3个版本）
    - 带有分箱的Beige相关性（3个版本）
    - 原始的BERT相关性（3个版本）
    - 带有分箱的BERT相关性（3个版本）

02 实验

本文对以下四个问题实验：

是否存在GPT-3.5模型的前瞻性偏差？
添加历史相关性是否能改善预测？
GPT-3.5模型在分析联邦数据方面是否优于BERT模型？
GPT模型是否比标准模型更有效地赚钱？

假设检验

使用假设检验分析预测与实际月相关性的RMSE。RMSE公式为：

每个RMSE跨越n个月以保持独立性。训练集为1980年1月至2021年9月，测试集为2021年10月至2024年6月。

模拟仿真

评估GPT模型在现实世界中的应用，通过模拟不同策略下的投资组合价值变化。使用两个主要指标：PnL（投资组合价值变化）和Sharpe比率（风险调整后收益）。Sharpe比率公式：

测试2变量最小化策略，目标是通过股票和债券的权重分配来最小化风险。权重优化公式：

使用指数移动平均保持标准差一致，分析不同相关性对权重的影响。

其中σS和σB分别表示股票和债券的标准差，ρ对应于它们的相关性。因此，我们可以通过使用指数移动平均来保持所有策略的标准差相同，然后看看不同的相关性如何影响权重。

接下来，我们计划纳入更多资产类别进行分析，除了股票和债券之外，还将包括大宗商品和美元价值。虽然由于某些指标的后期存在可能导致训练集规模减小，但这些数据仍然能够有效地反映COVID-19疫情前后投资组合的表现。此外，我们的计算方法将有所调整，需要引入线性代数的相关概念来处理新增的资产类别。

03假设检验结果

有预见性的偏见

模型中的前瞻性偏差指的是在训练过程中无意中使用了未来的数据，这可能导致5月的信息被用来预测6月的情况，从而影响预测的准确性。

假设0表示不存在前瞻性偏差，如果观察到测试集的误差显著增加，这可能是存在前瞻性偏差的迹象。我们可以通过单侧t检验来比较训练集和测试集的均方根误差（RMSE），随着样本量n的增加，测试集的可靠性可能会下降。结果显示，原始策略的效果并不显著，而分箱策略的效果则较为明显，这表明测试集的误差确实有所增加。此外，当模型回答具体问题时，它可能更依赖于历史数据而非《褐皮书》提供的信息。因此，原《褐皮书》策略的结果不显著，可能是因为模型能够访问过去的收益数据，导致其预测并未充分依赖《褐皮书》的信息。

添加历史相关性

通过添加过去三个月的相关性来测试错误是否减少。定义无相关性和有相关性的RMSE为e_without和e_with。假设检验：

使用t检验，显著结果表示错误减少。结果显示无显著性，且添加噪声数据后猜测变差。结论是GPT模型无法完美捕捉噪声数值数据的模式。

GPT模型是否优于BERT

在训练集上，GPT模型对联邦数据的分析表现优于BERT模型，特别是在处理原始相关性方面。然而，在测试集上，BERT模型的表现更为出色，这可能是因为GPT模型存在前瞻性偏差和过拟合的问题，影响了其泛化能力。GPT模型擅长获取过去特定信息，但在面对未见过的新信息时，其泛化能力相对较弱。

04模拟仿真结果

两个变量

我们比较了三种模型：基线模型（采用指数平均协方差）、BERT模型（使用原始相关性V3版本）和GPT模型（同样使用原始相关性V3版本）。基线模型通过指数滚动协方差来捕捉更多的历史信息。选择BERT和GPT模型的原因在于，V3版本的相关性计算被认为更加准确，并且能够减少前瞻性偏差。实验结果显示，BERT模型在这两个时期的表现最为出色，而GPT模型在某些情况下甚至不如简单的滚动协方差方法。因此，利用BERT模型分析《褐皮书》可能有助于构建最优的投资组合。

多变量

在COVID前后的时间段模拟中，BERT模型的表现均优于基线模型和GPT模型。GPT模型在COVID之前的表现就不尽如人意，而在COVID之后的表现进一步恶化，这可能表明存在过拟合问题或对《褐皮书》的分析不够充分。

05总结

GPT模型存在前瞻性偏差，且在预测相关性方面的表现与BERT模型相似。然而，在某些情况下，BERT模型和滚动平均策略的表现优于GPT模型，这可能是因为BERT作为分类模型更为简单有效。随着资产数量的增加，相关性计算的成本以O(N²)的速度增长，导致使用GPT模型计算相关性的代价变得非常高。

未来的研究可以利用其他联邦数据源以及经过清理的新闻数据集，而不仅仅依赖《褐皮书》。不同的大型语言模型（如Gemini、Llama、GPT-4等）可能会产生不同的结果。我们可以对GPT-4进行重新测试，以评估其在新数据上的表现。这项研究为比较大型语言模型与早期变换器模型提供了一个基础，并特别关注较少被利用的变量预测。

查看全文

http://www.kler.cn/a/463635.html