当前位置：首页 > article >正文

利用大型语言模型在量化投资中实现自动化策略

article 2025/2/28 20:08:42

“Automate Strategy Finding with LLM in Quant investment”

论文地址：https://arxiv.org/pdf/2409.06289

摘要

这个新提出的量化股票投资框架，利用大型语言模型（LLMs）与多智能体系统相结合的方法，通过LLMs从包括数字、文本及图像在内的多种金融数据中识别alpha因子。同时，该框架通过集成学习创建了一个由多个交易智能体组成的群体，旨在提升整体策略的效果。特别之处在于，它采用了一种动态权重门控机制，依据市场的实时变化挑选并配置最匹配的智能体，从而确保投资策略能够灵活适应市场环境，并具备情境感知能力以生成复合alpha公式。

实验结果显示，此方法在中国股市的表现显著超越现有基准，彰显了结合LLM生成的alpha因子与多智能体架构在实现优异交易成绩和稳定性方面的有效性。这突显了AI驱动策略在提升量化投资表现上的潜力，并为整合先进机器学习技术至金融交易中设定了新的标准。

简介

全球替代数据市场的价值持续攀升，吸引了众多投资者寻求获利机会。随着量化交易的进步，金融数据分析的能力得到了增强，尤其是Alpha挖掘方面，即识别和优化预测信号变得尤为重要。然而，传统方法显得不够灵活，难以适应市场的动态变化；数据的多样性和整合问题也对Alpha因子的挖掘构成了挑战。此外，如何有效应对市场变化是另一个关键难题，因此深度学习方法被越来越多地用于市场预测和策略制定。

本文介绍了一种创新的自动化策略发现框架，该框架基于大型语言模型构建，涵盖了灵活的Alpha因子挖掘、多智能体支持的多模态市场评估以及动态策略优化三个核心部分。通过融合机器学习与金融领域的尖端技术，此框架能够在多个资产类别中识别并优化Alpha策略。它还特别设计有增量更新功能和能适应不同市场环境的动态权重分配机制。其主要贡献在于：利用大型语言模型的强大探索能力来探寻公式化的Alpha因子；采用多智能体系统分析市场状况与Alpha因子间的关系；并通过自动化流程实现自适应投资策略的发现。此框架适用于各类资产，并且其代码已公开供使用。

01问题定义

本文提出了一种综合框架，用于生成量化交易中的alpha因子和策略。该框架结合了大型语言模型与多智能体系统，能够动态地挖掘和挑选种子alpha因子，从而适应市场的不断变化。种子alpha因子通过数学公式表达，涵盖横截面和时间序列运算符。此外，框架中还设计了一套流程来精炼和更新这些alpha因子，确保它们能持续符合变动的市场环境。

Alpha因子和策略

本文描述了一种基于Alpha策略的股票投资模型。该模型通过计算各只股票在不同类别下的Alpha值，甄选出表现最优的Alpha值作为策略构建的基础材料。最终形成的Alpha策略是通过对各类别中的Alpha值进行加权汇总而得到的。

种子Alpha的挖掘和选择

该框架利用大型语言模型和多智能体系统来挖掘和选择种子Alpha，以克服传统基于规则的Alpha挖掘方法缺乏灵活性和动态适应市场变化能力的局限。通过整合机器学习技术和金融理论，此框架可以动态调整以应对市场变动，并优化Alpha策略。它还能从经济新闻和社交媒体趋势等替代数据源中提取有价值的信息。框架将当前市场状况与Alpha的历史测试结果相联系，使大型语言模型能够识别最适合的种子Alpha，并给予可靠性评分。随后，专业代理根据自身的风险偏好和专业知识进一步评估，确保在各种市场条件下都能实现收益最大化和有效的风险管理。

种子Alpha形式

我们的框架制定了LLM生成种子alpha的输出规则，确保它们以数学表达式的形式表示，结合了多种运算符和原始金融特征。这些运算符包含如加法、对数等基本函数，适用于单日数据处理，被称为横截面运算符。此外，还有用于处理多日数据的时间序列运算符。我们定期更新和优化种子alpha的生成流程，以反映最新的市场状况和研究发现。

02方法

构建和优化量化交易中Alpha策略的综合框架由三个核心部分组成：种子Alpha工厂、多智能体决策机制和权重优化技术。种子Alpha工厂利用大型语言模型（LLMs）对多模态数据进行筛选和分类，生成强大的种子Alpha库。多智能体系统根据不同的风险偏好和市场环境评估并挑选这些Alpha，通过信心评分机制保证其可靠性。最终，使用深度神经网络（DNN）优化所选Alpha的权重，以此作为动态适应性投资策略的基础。

整体框架

此框架由三个主要部分构成：种子Alpha工厂、多智能体决策机制和权重优化技术。种子Alpha工厂运用大型语言模型（LLM）对多模态资料进行筛选与分类，以建立种子Alpha库。多智能体决策机制能够整合各种风险视角，增强策略在不同市场环境下的适应性和稳定性。权重优化技术则采用深度学习方法来评估每个种子Alpha的表现，并据此构建整体投资策略。该框架设计为动态更新，可以持续演进，以适应不断变化的市场条件。

LLM过滤器和类别

通过Alpha Grail利用LLM进行过滤和分类，将文献信息依据传统金融类别进行整理和归类，生成了涵盖9个类别的100个种子Alpha。此方法还借助多模态处理能力，增强了Seed Alpha Factory的多样性和稳定性。最终输出是一个结构化的Seed Alpha Factory，其中包含了动量、均值回归、波动率和基本面分析等多个金融领域的Alpha因子。这个精心构建的Seed Alpha Factory为后续的多智能体决策和权重优化阶段奠定了基础。

多模态多智能体评估Alpha集

本文提出了一种结合多模态数据与多智能体系统的股票Alpha因子评估和选择方法。这种方法通过整合多种数据来源和分析视角，提供了对市场状况和Alpha因子表现的全面理解。多智能体系统包含多个代理，每个代理依据自身的风险偏好和投资策略来评估Alpha因子。经过严格的回测过程，使用历史市场数据来检验这些Alpha因子在各种市场条件下的表现。最终，采用基于类别的Alpha选择算法来挑选出既可靠又高效的Alpha因子。此方法为构建能够适应不同市场环境的强大投资策略提供了坚实的评估基础。

最优权重Alpha策略

本文采用深度神经网络（DNN）优化所选种子alpha的权重，以预测未来的收益率。该模型包含三层结构：输入层、隐藏层和输出层。输入层使用基于历史收盘价计算出的日alpha值作为输入特征。隐藏层通过ReLU激活函数引入非线性元素，增强模型的学习能力。输出层负责预测未来的收益率。在训练过程中，DNN利用反向传播和梯度下降算法最小化损失函数，调整权重和偏差来提升预测精度。为了确保模型具有良好的泛化能力并避免过拟合，特别设置了独立的验证集。这种方法构建了一个强大的框架，能够基于历史alpha值预测未来收益率，从而形成有效的投资策略。DNN通过对输入数据应用学习到的权重和偏差进行转换处理，并在输出层通过另一组权重、偏差及激活函数生成最终结果。实验表明，此方法有效利用了深度学习技术优化alpha权重，显著提升了投资策略的预测性能。

03实验

本研究致力于创建一个全面且无需人工干预的LLM驱动alpha挖掘框架，该框架能够处理多模态信息并适应各种市场环境。为此，框架中引入了置信度评分机制，以减少alpha选择过程中的不确定性问题。研究目标涵盖了评估框架的整体效能、多模态数据的知识提取能力、置信度评分机制的有效性以及综合策略的表现。为了验证框架的有效性，进行了一系列实验，包括测试框架是否能成功实现多模态知识提取、是否能够在性能上超越现有的alpha工厂，以及其综合策略能否持续跑赢市场。

数据集

本研究专注于中国A股市场的财务数据，尤其是SSE 50指数成分。数据集包含了六个关键特征作为Alpha因子的原始输入，以确保评估的严谨性和模型性能的稳定性。为了有效评估各个Alpha因子的表现，数据被划分为训练集和测试集。评估过程中考虑了特定时期的财务报告以及不同Alpha因子的表现指标。我们的模型在SSE 50指数涵盖的50家公司中进行了测试，证明了其在多种金融环境下的适用性和可靠性。

研究问题

本框架成功实现了多模态知识的提取，并能够根据不同市场状况捕捉新的Alpha。实验结果显示，该框架能够在各种市场条件下进行动态Alpha选择。对选定Alpha信号的评估表明，LLM驱动的框架在所有类别中均获得了更高的信息系数值，尤其在波动性和基本面分析方面表现突出。

此研究利用LLM驱动的框架以及置信度评分机制，结合12个Alpha因子对SSE 50成分股进行了分析。尽管某些因子的信息系数相对较低，但它们在整个投资组合的表现中扮演了重要角色。移除任何一个因子都会损害整体表现，这表明由LLM挑选出的因子集合之间存在协同效应，共同提供了强大的预测能力。

基于LLM框架和置信度评分的投资策略通过回测实验在2023年的SSE 50数据集上展现了卓越表现，累计回报率达到53.17%，显著超越市场指数和其他基金的表现。此策略每日依据alpha值对股票进行排序，挑选出排名前k的股票进行投资，并设定每天最多交易n只股票以控制交易成本。该策略不仅能够灵活适应市场变动，还通过系统化的投资方法最小化成本，显示出较高的投资潜力。