大型语言模型在金融市场中的预测能力
“Predictive Power of LLMs in Financial Markets”
论文地址:https://arxiv.org/pdf/2411.16569
摘要
股票市场预测对于投资者来说至关重要,有助于他们制定获利或减少风险的策略。然而,由于市场数据中存在大量噪音,挑选合适的数据和模型来进行准确预测是一项挑战。大语言模型的发展为数据分析提供了新的途径。本研究旨在对比GPT与传统模型(例如BERT)在利用美联储《褐皮书》预测经济相关性方面的效能,从而评估经济状态对资产价格的影响。研究发现,《褐皮书》确实含有能够反映资产之间关系的信息,不过GPT模型显示出过度前瞻的倾向,而传统模型在这项任务上的表现更为出色。
简介
对于投资者而言,准确预判股市的涨跌始终是一项艰巨的任务。为了解市场走势,研究者们探索了多种方法,包括运用各种统计与机器学习模型以及分析社交媒体上的趋势,旨在发现能够最大化收益的投资策略。
随着大型语言模型的兴起,这一领域带来了新的可能性,本研究旨在探讨利用大型语言模型是否能洞察公众对市场的预期。请注意,投资市场存在不确定性,任何预测都伴随着风险,投资者应根据个人情况审慎判断,并考虑咨询专业理财顾问的意见。同时,投资决策应当基于可靠的信息来源,警惕投资欺诈行为。
挑战
市场数据通常包含大量噪声,表现出高度的波动性,并且容易受到新闻报道和重大事件的显著影响,这使得预测市场趋势变得异常困难。模型在处理这类数据时,往往容易对历史数据过拟合,导致其泛化能力不足,尤其在面对如疫情这样的突发事件时表现不佳。此外,新闻数据不仅复杂而且来源广泛,单靠一个信息源难以全面捕捉市场的动态变化。由于定量与定性数据中均存在噪声,市场预测因此面临诸多挑战。为了改善这种情况,采用大型语言模型并结合更高质量、更干净的数据集成为了一种有效的应对策略。
大语言模型的挑战
大型语言模型(LLM)的输出基于概率分布,这使得实验结果难以完全复制。此外,LLM 有可能产生所谓的“幻觉”,即给出错误或不相关的信息。由于这些模型本质上是黑箱操作,我们很难确定哪些输入元素对生成的输出是有贡献的。
相关工作
Kalyani (2016) 提议通过分析新闻的情感来预测股市趋势,但指出机器学习技术在提取非线性信息方面存在一定的局限性。Ren (2022) 则使用双向LSTM模型研究新闻对股价波动的影响,不过其采用的word2vec嵌入方法较为过时,难以充分捕捉长篇文章中的关键细节。Bybee (2023) 引入了大型语言模型(LLM)来解析新闻文章中的经济情感,并尝试以此预测预期收益,然而这种方法面对收益的高波动性时效果有限。
本研究旨在优化Bybee提出的方法,专注于预测股票与债券间的相关性及其价格变动,以帮助构建最优的投资组合。我们将利用每1-2个月发布的《美联储褐皮书》,该数据源提供了更为清晰和结构化的经济信息,相比频繁且杂乱的新闻报道,更适合用于深入的经济分析。
01 方法
数据
从1985年至2023年,我们收集了标普500指数(GSPC)的历史股价数据,以及从2003年中期到2023年的AGG债券数据。这些数据来源于Wharton Research Data Services和FRED,后者还提供了自1980年以来的各种债券收益率和ICE BofA美国公司指数的总回报指数。通过运行线性回归分析,我们发现最佳预测模型包括公司指数以及1年、2年、5年、7年和10年期债券的收益率,该模型的外样本R²值达到了0.9901。这表明模型在预测AGG债券价格时表现出较小的误差,具有较高的准确性。此外,每年有5个月份,来自12个州的《米尼阿波利斯联邦储备银行褐皮书》文章可以公开获取,这些资源易于抓取和使用。
相关性
为了定义股票和债券的真实相关性,我们通过计算它们的每日百分比变化来实现。利用GPT-3.5 Turbo模型分析经济状况相关的文章,我们将温度设置为0以确保结果的可重复性。该模型根据指定年份和提供的经济文章内容,预测股票与债券之间的相关性,并以0(表示负相关)、1(表示无相关)或2(表示正相关)的形式返回预测结果。此外,我们还可以通过一个0到10的连续范围更精细地询问相关性的程度,并计算概率p值以稳定相关性评估。对于超出模型上下文长度限制的文章,我们将采取分段处理或随机选取部分内容进行分析的方法。
Bert相关性
为了使BERT模型能够输出类似于GPT模型的值,我们设计了一个分类算法,该算法将实际相关性四舍五入为−1(负相关)、0(无相关)或1(正相关)。我们将数据根据相关性分为11个类别,并以此作为每月《褐皮书》文章的标签。训练数据涵盖了从1980年到2021年9月的时间段,模型共进行了10个训练周期。预测值的计算方法与GPT模型相同,最终生成了三种不同版本的相关性计算结果,以提供多样化的视角和验证。
全部相关性
实验中使用的相关性包括:
-
-
-
- 原始的Beige相关性(3个版本)
- 带有分箱的Beige相关性(3个版本)
- 原始的BERT相关性(3个版本)
- 带有分箱的BERT相关性(3个版本)
-
-
02 实验
本文对以下四个问题实验:
- 是否存在GPT-3.5模型的前瞻性偏差?
- 添加历史相关性是否能改善预测?
- GPT-3.5模型在分析联邦数据方面是否优于BERT模型?
- GPT模型是否比标准模型更有效地赚钱?
假设检验
使用假设检验分析预测与实际月相关性的RMSE。RMSE公式为:
每个RMSE跨越n个月以保持独立性。训练集为1980年1月至2021年9月,测试集为2021年10月至2024年6月。
模拟仿真
评估GPT模型在现实世界中的应用,通过模拟不同策略下的投资组合价值变化。使用两个主要指标:PnL(投资组合价值变化)和Sharpe比率(风险调整后收益)。Sharpe比率公式:
测试2变量最小化策略,目标是通过股票和债券的权重分配来最小化风险。权重优化公式:
使用指数移动平均保持标准差一致,分析不同相关性对权重的影响。
其中σS和σB分别表示股票和债券的标准差,ρ对应于它们的相关性。因此,我们可以通过使用指数移动平均来保持所有策略的标准差相同,然后看看不同的相关性如何影响权重。
接下来,我们计划纳入更多资产类别进行分析,除了股票和债券之外,还将包括大宗商品和美元价值。虽然由于某些指标的后期存在可能导致训练集规模减小,但这些数据仍然能够有效地反映COVID-19疫情前后投资组合的表现。此外,我们的计算方法将有所调整,需要引入线性代数的相关概念来处理新增的资产类别。
03假设检验结果
有预见性的偏见
模型中的前瞻性偏差指的是在训练过程中无意中使用了未来的数据,这可能导致5月的信息被用来预测6月的情况,从而影响预测的准确性。
假设0表示不存在前瞻性偏差,如果观察到测试集的误差显著增加,这可能是存在前瞻性偏差的迹象。我们可以通过单侧t检验来比较训练集和测试集的均方根误差(RMSE),随着样本量n的增加,测试集的可靠性可能会下降。结果显示,原始策略的效果并不显著,而分箱策略的效果则较为明显,这表明测试集的误差确实有所增加。此外,当模型回答具体问题时,它可能更依赖于历史数据而非《褐皮书》提供的信息。因此,原《褐皮书》策略的结果不显著,可能是因为模型能够访问过去的收益数据,导致其预测并未充分依赖《褐皮书》的信息。
添加历史相关性
通过添加过去三个月的相关性来测试错误是否减少。定义无相关性和有相关性的RMSE为e_without和e_with。假设检验:
使用t检验,显著结果表示错误减少。结果显示无显著性,且添加噪声数据后猜测变差。结论是GPT模型无法完美捕捉噪声数值数据的模式。
GPT模型是否优于BERT
在训练集上,GPT模型对联邦数据的分析表现优于BERT模型,特别是在处理原始相关性方面。然而,在测试集上,BERT模型的表现更为出色,这可能是因为GPT模型存在前瞻性偏差和过拟合的问题,影响了其泛化能力。GPT模型擅长获取过去特定信息,但在面对未见过的新信息时,其泛化能力相对较弱。
04模拟仿真结果
两个变量
我们比较了三种模型:基线模型(采用指数平均协方差)、BERT模型(使用原始相关性V3版本)和GPT模型(同样使用原始相关性V3版本)。基线模型通过指数滚动协方差来捕捉更多的历史信息。选择BERT和GPT模型的原因在于,V3版本的相关性计算被认为更加准确,并且能够减少前瞻性偏差。实验结果显示,BERT模型在这两个时期的表现最为出色,而GPT模型在某些情况下甚至不如简单的滚动协方差方法。因此,利用BERT模型分析《褐皮书》可能有助于构建最优的投资组合。
多变量
在COVID前后的时间段模拟中,BERT模型的表现均优于基线模型和GPT模型。GPT模型在COVID之前的表现就不尽如人意,而在COVID之后的表现进一步恶化,这可能表明存在过拟合问题或对《褐皮书》的分析不够充分。
05总结
GPT模型存在前瞻性偏差,且在预测相关性方面的表现与BERT模型相似。然而,在某些情况下,BERT模型和滚动平均策略的表现优于GPT模型,这可能是因为BERT作为分类模型更为简单有效。随着资产数量的增加,相关性计算的成本以O(N²)的速度增长,导致使用GPT模型计算相关性的代价变得非常高。
未来的研究可以利用其他联邦数据源以及经过清理的新闻数据集,而不仅仅依赖《褐皮书》。不同的大型语言模型(如Gemini、Llama、GPT-4等)可能会产生不同的结果。我们可以对GPT-4进行重新测试,以评估其在新数据上的表现。这项研究为比较大型语言模型与早期变换器模型提供了一个基础,并特别关注较少被利用的变量预测。