当前位置：首页 > article >正文

以 AI 强化学习优化双边交易与借贷投资组合

article 2024/10/9 18:03:50

作者：老余捞鱼

原创不易，转载请标明出处及原作者。

写在前面的话：
本研究提出基于强化学习的高风险环境投资组合管理模型，采用新环境公式和基于利润损失的奖励函数，用 Soft Actor-Critic 代理和卷积神经网络实现，管理 12 种加密资产投资组合并在 Binance 永续期货市场测试。在两个 16 个月不同市场波动时期表现出色，高波动性下实现更高回报风险比和稳健盈利能力，证实模型在利用市场动态和管理波动环境风险方面的有效性。

一、简介

传统的机器学习模型往往依赖于价格趋势的预测，而强化学习模型则能够将预测和权重管理融合为一个统一的过程，从而优化投资组合的表现。本文提出了一种基于收益和损失的奖励函数的环境形式，并采用了Soft Actor-Critic代理和卷积神经网络与多头注意力机制的架构，以提高模型的风险管理和资本优化能力。本文还介绍了在Binance永续期货市场上使用多样化的12种加密资产组成的投资组合作为强化学习环境的实现方法，并对测试结果进行了分析。

二、相关工作

投资组合管理问题的数学建模方法，包括单期投资组合优化模型和多期投资组合优化模型。单期模型采用静态方法，在投资期开始时优化投资组合权重，但常被批评过于依赖历史数据和过于简化假设。多期模型允许周期性重新评估和调整投资组合权重，采用动态规划、随机规划和随机动态规划等方法寻找最优投资组合权重。其中，基于强化学习的投资组合管理模型应用广泛，包括代理、环境、动作、状态和奖励函数等五个关键元素，以优化权重优化为重点。代理通常采用神经网络实现策略，学习算法包括Q-learning、DQN、DDQN、DPG、DDPG和A2C等。最近的研究还关注了注意力机制和定制化学习算法。

 本文综述了强化学习在投资组合管理中的应用。研究者们通过设计环境和奖励函数来优化投资组合权重，其中离散和连续的权重确定方法各有优缺点。数据预处理和技术指标的应用可以提高模型性能。奖励函数通常包括投资组合回报率、夏普比率和利润等。然而，现有研究忽略了负权重和借贷的影响，需要重新设计环境和奖励函数来更好地管理风险和资本。