基于LLM的路由在专家混合应用:一种新颖的交易框架,该框架在夏普比率和总回报方面提升了超过25%
“LLM-Based Routing in Mixture of Experts: A Novel Framework for Trading”
论文地址:https://arxiv.org/pdf/2501.09636
摘要
随着深度学习和大语言模型(LLMs)的不断进步,混合专家(MoE)机制在股票投资领域得到了新的应用。目前的模型大多只专注于单一数据类型,未能充分利用如文本在内的其他数据类型的价值。传统的路由选择方式没有考虑到具体的上下文信息和实际情况,造成所选专家不够精准。本文介绍了一种名为LLMoE的新框架,该框架采用LLMs来替代以往的路由器,依据股票的历史价格以及相关新闻来挑选专家。实验结果显示,LLMoE在处理多模态的真实股票数据方面,其性能超越了现有的MoE模型及其它深度神经网络方法。此外,LLMoE具有灵活的架构设计,可以方便地应用于多种不同的下游任务。
简介
传统交易策略主要依靠统计方法和预测模型,然而这些方法在应对金融市场复杂的动态变化时显得力不从心。虽然深度学习为量化交易带来了显著改进,但其效果往往受限于单一预测器的使用,造成结果的不稳定性。采用Mixture-of-Experts (MoE) 方法可以通过结合多个专家模型来增强系统性能和适应性,更好地反映实际交易环境。不过,传统的MoE模型也有缺点,比如路由器设计过于静态,不够灵活,并且多侧重于数值型数据,忽略了文本信息的重要性。
本文介绍了一种名为LLMoE的新框架,它将MoE与语言模型相结合作为路由器,能够根据历史股价和新闻头条动态地选择专家模型。通过所谓的“全进全出”策略,LLMoE可以生成有效的交易决策,从而提高专家选择的准确性和金融市场的应用效果。
01方法
问题定义
利用五天的连续描述性数据(涵盖数值特征和新闻标题)来预测次日的股票走势 Y t+1。目的是根据 Y t+1 制定交易策略,整合定量数据与定性背景信息,以提升决策的准确性。
LLMoE:基于LLM路由的MoE方法
LLMoE框架采用LLM作为MoE结构中的路由器,以实现对多模态数据进行高效专家选择的目的。
LLM-based Router
处理历史股价和相关新闻,将专家分类为正面和负面,基于具体情境选取最适合的专家,以增强决策质量。
Expert Prediction
在乐观及悲观市场条件下,由专家模型进行预测,运用前馈神经网络解析价格指标,提高预测精度和决策水平。
Trading Algorithm Generation
实施“全进全出”策略,依据专家预测动态调节投资组合,旨在最大化收益。
02实验
实验设置
数据集
采用2006至2016年MSFT和AAPL的市场数据,其中MSFT的数据缺少较多新闻资讯,而AAPL的数据则相对完整,以此来检验LLMoE在处理不同条件下的多模态数据时的能力。
特征
设计了诸如价格比率、每日价格波动以及移动平均滚动偏差等特征,用以捕捉市场的短期动态与长期趋势。
基线模型
通过对比梯度提升决策树、神经网络及传统的Mixture of Experts模型,评估LLMoE模型的优越性。
评估标准
利用包括总回报率、年度波动幅度和夏普比率在内的七项金融指标,来评估模型在各种市场环境中的收益与风险控制表现。
实验细节
对基线模型进行了超参数的随机搜索优化,而对于LLMoE模型,则使用了网格搜索法。所有模型均应用了相同的5天观察期设定,并且整个实验过程重复了十次,确保结果的可靠性和稳定性。
具体实现
路由器
选用Llama3.2作为路由器,它能够整合数值和文本数据,并根据五天的滚动窗口特征来进行市场情绪分类。此过程将五个连续的数据点与相应的新闻标题结合,形成描述性字符串作为输入。
路由器输出包括:
- 分类结果:识别市场情绪为乐观或悲观,并选择概率最高的标签进行标记。
- 解释说明:提供自然语言形式的分类理由,以增加决策过程的透明度。
专家模型
专家模型针对乐观和悲观的市场状况设计,使用统一的架构处理55个数值特征来预测次日股价走势。它采用滚动窗口机制作为输入层,涵盖了连续五天的数据,每天包含11个数值属性(例如日价格变动和移动平均偏差)。这种输入方法有助于捕捉市场短期的波动和长期的趋势,从而提升预测的精确度。
结果
路由器的类人推理
在LLMoE框架中,路由器通过结合数值和文本信息展现了类似人类的推理能力。例如,即使新闻报道对苹果的增长表示担忧,路由器仍能识别出价格和销量的持续上升趋势,从而提示了一个“谨慎乐观”的前景。这种能力显示路由器能够综合考虑正面的数据趋势与复杂的情绪文本,生成既平衡又具上下文感知的预测。
LLMoE性能优异
LLMoE模型在诸如总回报、夏普比率及卡尔玛比率这些关键指标上,明显超越了其他基线模型,体现了其在收益与风险管理方面的杰出表现。实验结果证明了利用大型语言模型作为路由器来整合数值和文本数据的有效性和精确度。
2-Expert MoE与LLMoE的比较
LLMoE通过动态结合多模态数据,表现优于采用静态路由的2-expert MoE模型。它实现了专家资源的更高效分配,改善了风险调整后的回报指标,例如夏普比率和卡尔玛比率。此外,LLMoE在风险管理方面也有显著提升,表现为最大回撤(MDD)的减少。
03总结
本文介绍的LLMoE框架,利用预训练的大型语言模型作为Mixture of Experts (MoE)架构中的路由器,通过动态整合数值型股票特征和文本新闻数据,强化了定量与定性分析的结合。这种动态路由机制突破了传统MoE系统的静态局限,提高了对市场波动的适应能力。实验结果表明,LLMoE在风险调整回报指标,如夏普比率和总回报方面提升了超过25%,成为一种领先的智能交易策略工具。