当前位置: 首页 > article >正文

大型语言模型在金融市场中的预测能力

“Predictive Power of LLMs in Financial Markets”

论文地址:https://arxiv.org/pdf/2411.16569

摘要

股票市场预测对于投资者来说至关重要,有助于他们制定获利或减少风险的策略。然而,由于市场数据中存在大量噪音,挑选合适的数据和模型来进行准确预测是一项挑战。大语言模型的发展为数据分析提供了新的途径。本研究旨在对比GPT与传统模型(例如BERT)在利用美联储《褐皮书》预测经济相关性方面的效能,从而评估经济状态对资产价格的影响。研究发现,《褐皮书》确实含有能够反映资产之间关系的信息,不过GPT模型显示出过度前瞻的倾向,而传统模型在这项任务上的表现更为出色。

简介

对于投资者而言,准确预判股市的涨跌始终是一项艰巨的任务。为了解市场走势,研究者们探索了多种方法,包括运用各种统计与机器学习模型以及分析社交媒体上的趋势,旨在发现能够最大化收益的投资策略。

随着大型语言模型的兴起,这一领域带来了新的可能性,本研究旨在探讨利用大型语言模型是否能洞察公众对市场的预期。请注意,投资市场存在不确定性,任何预测都伴随着风险,投资者应根据个人情况审慎判断,并考虑咨询专业理财顾问的意见。同时,投资决策应当基于可靠的信息来源,警惕投资欺诈行为。

挑战

市场数据通常包含大量噪声,表现出高度的波动性,并且容易受到新闻报道和重大事件的显著影响,这使得预测市场趋势变得异常困难。模型在处理这类数据时,往往容易对历史数据过拟合,导致其泛化能力不足,尤其在面对如疫情这样的突发事件时表现不佳。此外,新闻数据不仅复杂而且来源广泛,单靠一个信息源难以全面捕捉市场的动态变化。由于定量与定性数据中均存在噪声,市场预测因此面临诸多挑战。为了改善这种情况,采用大型语言模型并结合更高质量、更干净的数据集成为了一种有效的应对策略。

大语言模型的挑战

大型语言模型(LLM)的输出基于概率分布,这使得实验结果难以完全复制。此外,LLM 有可能产生所谓的“幻觉”,即给出错误或不相关的信息。由于这些模型本质上是黑箱操作,我们很难确定哪些输入元素对生成的输出是有贡献的。

相关工作

Kalyani (2016) 提议通过分析新闻的情感来预测股市趋势,但指出机器学习技术在提取非线性信息方面存在一定的局限性。Ren (2022) 则使用双向LSTM模型研究新闻对股价波动的影响,不过其采用的word2vec嵌入方法较为过时,难以充分捕捉长篇文章中的关键细节。Bybee (2023) 引入了大型语言模型(LLM)来解析新闻文章中的经济情感,并尝试以此预测预期收益,然而这种方法面对收益的高波动性时效果有限。

本研究旨在优化Bybee提出的方法,专注于预测股票与债券间的相关性及其价格变动,以帮助构建最优的投资组合。我们将利用每1-2个月发布的《美联储褐皮书》,该数据源提供了更为清晰和结构化的经济信息,相比频繁且杂乱的新闻报道,更适合用于深入的经济分析。

01 方法

数据

从1985年至2023年,我们收集了标普500指数(GSPC)的历史股价数据,以及从2003年中期到2023年的AGG债券数据。这些数据来源于Wharton Research Data Services和FRED,后者还提供了自1980年以来的各种债券收益率和ICE BofA美国公司指数的总回报指数。通过运行线性回归分析,我们发现最佳预测模型包括公司指数以及1年、2年、5年、7年和10年期债券的收益率,该模型的外样本R²值达到了0.9901。这表明模型在预测AGG债券价格时表现出较小的误差,具有较高的准确性。此外,每年有5个月份,来自12个州的《米尼阿波利斯联邦储备银行褐皮书》文章可以公开获取,这些资源易于抓取和使用。

相关性

为了定义股票和债券的真实相关性,我们通过计算它们的每日百分比变化来实现。利用GPT-3.5 Turbo模型分析经济状况相关的文章,我们将温度设置为0以确保结果的可重复性。该模型根据指定年份和提供的经济文章内容,预测股票与债券之间的相关性,并以0(表示负相关)、1(表示无相关)或2(表示正相关)的形式返回预测结果。此外,我们还可以通过一个0到10的连续范围更精细地询问相关性的程度,并计算概率p值以稳定相关性评估。对于超出模型上下文长度限制的文章,我们将采取分段处理或随机选取部分内容进行分析的方法。

Bert相关性

为了使BERT模型能够输出类似于GPT模型的值,我们设计了一个分类算法,该算法将实际相关性四舍五入为−1(负相关)、0(无相关)或1(正相关)。我们将数据根据相关性分为11个类别,并以此作为每月《褐皮书》文章的标签。训练数据涵盖了从1980年到2021年9月的时间段,模型共进行了10个训练周期。预测值的计算方法与GPT模型相同,最终生成了三种不同版本的相关性计算结果,以提供多样化的视角和验证。

全部相关性

实验中使用的相关性包括:

        • 原始的Beige相关性(3个版本)
        • 带有分箱的Beige相关性(3个版本)
        • 原始的BERT相关性(3个版本)
        • 带有分箱的BERT相关性(3个版本)

02 实验

本文对以下四个问题实验:

  • 是否存在GPT-3.5模型的前瞻性偏差?
  • 添加历史相关性是否能改善预测?
  • GPT-3.5模型在分析联邦数据方面是否优于BERT模型?
  • GPT模型是否比标准模型更有效地赚钱?

假设检验

使用假设检验分析预测与实际月相关性的RMSE。RMSE公式为:

每个RMSE跨越n个月以保持独立性。训练集为1980年1月至2021年9月,测试集为2021年10月至2024年6月。

模拟仿真

评估GPT模型在现实世界中的应用,通过模拟不同策略下的投资组合价值变化。使用两个主要指标:PnL(投资组合价值变化)和Sharpe比率(风险调整后收益)。Sharpe比率公式:

测试2变量最小化策略,目标是通过股票和债券的权重分配来最小化风险。权重优化公式:

使用指数移动平均保持标准差一致,分析不同相关性对权重的影响。

其中σS和σB分别表示股票和债券的标准差,ρ对应于它们的相关性。因此,我们可以通过使用指数移动平均来保持所有策略的标准差相同,然后看看不同的相关性如何影响权重。

接下来,我们计划纳入更多资产类别进行分析,除了股票和债券之外,还将包括大宗商品和美元价值。虽然由于某些指标的后期存在可能导致训练集规模减小,但这些数据仍然能够有效地反映COVID-19疫情前后投资组合的表现。此外,我们的计算方法将有所调整,需要引入线性代数的相关概念来处理新增的资产类别。

03假设检验结果

有预见性的偏见

模型中的前瞻性偏差指的是在训练过程中无意中使用了未来的数据,这可能导致5月的信息被用来预测6月的情况,从而影响预测的准确性。

假设0表示不存在前瞻性偏差,如果观察到测试集的误差显著增加,这可能是存在前瞻性偏差的迹象。我们可以通过单侧t检验来比较训练集和测试集的均方根误差(RMSE),随着样本量n的增加,测试集的可靠性可能会下降。结果显示,原始策略的效果并不显著,而分箱策略的效果则较为明显,这表明测试集的误差确实有所增加。此外,当模型回答具体问题时,它可能更依赖于历史数据而非《褐皮书》提供的信息。因此,原《褐皮书》策略的结果不显著,可能是因为模型能够访问过去的收益数据,导致其预测并未充分依赖《褐皮书》的信息。

添加历史相关性

通过添加过去三个月的相关性来测试错误是否减少。定义无相关性和有相关性的RMSE为e_without和e_with。假设检验:

使用t检验,显著结果表示错误减少。结果显示无显著性,且添加噪声数据后猜测变差。结论是GPT模型无法完美捕捉噪声数值数据的模式。

GPT模型是否优于BERT

在训练集上,GPT模型对联邦数据的分析表现优于BERT模型,特别是在处理原始相关性方面。然而,在测试集上,BERT模型的表现更为出色,这可能是因为GPT模型存在前瞻性偏差和过拟合的问题,影响了其泛化能力。GPT模型擅长获取过去特定信息,但在面对未见过的新信息时,其泛化能力相对较弱。

04模拟仿真结果

两个变量

我们比较了三种模型:基线模型(采用指数平均协方差)、BERT模型(使用原始相关性V3版本)和GPT模型(同样使用原始相关性V3版本)。基线模型通过指数滚动协方差来捕捉更多的历史信息。选择BERT和GPT模型的原因在于,V3版本的相关性计算被认为更加准确,并且能够减少前瞻性偏差。实验结果显示,BERT模型在这两个时期的表现最为出色,而GPT模型在某些情况下甚至不如简单的滚动协方差方法。因此,利用BERT模型分析《褐皮书》可能有助于构建最优的投资组合。

多变量

在COVID前后的时间段模拟中,BERT模型的表现均优于基线模型和GPT模型。GPT模型在COVID之前的表现就不尽如人意,而在COVID之后的表现进一步恶化,这可能表明存在过拟合问题或对《褐皮书》的分析不够充分。

05总结

GPT模型存在前瞻性偏差,且在预测相关性方面的表现与BERT模型相似。然而,在某些情况下,BERT模型和滚动平均策略的表现优于GPT模型,这可能是因为BERT作为分类模型更为简单有效。随着资产数量的增加,相关性计算的成本以O(N²)的速度增长,导致使用GPT模型计算相关性的代价变得非常高。

未来的研究可以利用其他联邦数据源以及经过清理的新闻数据集,而不仅仅依赖《褐皮书》。不同的大型语言模型(如Gemini、Llama、GPT-4等)可能会产生不同的结果。我们可以对GPT-4进行重新测试,以评估其在新数据上的表现。这项研究为比较大型语言模型与早期变换器模型提供了一个基础,并特别关注较少被利用的变量预测。


http://www.kler.cn/a/463635.html

相关文章:

  • SD下载、安装、使用、卸载-Stable Diffusion整合包v4.10发布!
  • 简易Type-C拉取5V/3A电流电路分享
  • QEMU网络配置简介
  • Appium 2.0:移动自动化测试的革新之旅
  • 《Vue进阶教程》第三十四课:toRefs的使用
  • 【HAProxy】如何在Ubuntu下配置HAProxy服务器
  • [AI] 深度学习的“黑箱”探索:从解释性到透明性
  • 管理员登录 Ubuntu 图形界面失败
  • Windows提示错误wmvcore.dll缺失要怎么解决?
  • 【每日学点鸿蒙知识】初始化BigInt、包体积瘦身、Tabs嵌套Grid、老年化适配、Release打包失败
  • 【Oracle】数据库 安装与【Qt】驱动编译与连接
  • Navicat和MySQL的安装
  • 在CodeBlocks搭建SDL2工程构建TFT彩屏模拟器虚拟TFT彩屏幕显示
  • Linux之ARM(MX6U)裸机篇----4.C语言LED驱动实验
  • 基础的基础之 pillow与opencv相比的特点与优缺点比较
  • 【从零开始入门unity游戏开发之——C#篇39】C#反射使用——Type 类、Assembly 类、Activator 类操作程序集
  • 如何利用java爬虫获得AMAZON商品详情
  • 基于 Python 的人脸识别景区票务识别系统
  • 使用Qt中的模型视图框架
  • 【Rust自学】9.1. 不可恢复的错误以及panic!
  • 180天Java项目学习路线指引
  • 计算机毕设-基于springboot的花店管理系统的设计与实现(附源码+lw+ppt+开题报告)
  • 低精度只适用于未充分训练的LLM?腾讯提出LLM量化的scaling laws
  • JVMTI 笔记
  • 单元测试入门和mockup
  • ruoyi 分页 查询超出后还有数据; Mybatis-Plus 分页 超出后还有数据