当前位置: 首页 > article >正文

以 AI 强化学习优化双边交易与借贷投资组合

作者:老余捞鱼

原创不易,转载请标明出处及原作者。

写在前面的话:
       
本研究提出基于强化学习的高风险环境投资组合管理模型,采用新环境公式和基于利润损失的奖励函数,用 Soft Actor-Critic 代理和卷积神经网络实现,管理 12 种加密资产投资组合并在 Binance 永续期货市场测试。在两个 16 个月不同市场波动时期表现出色,高波动性下实现更高回报风险比和稳健盈利能力,证实模型在利用市场动态和管理波动环境风险方面的有效性。

一、简介

       传统的机器学习模型往往依赖于价格趋势的预测,而强化学习模型则能够将预测和权重管理融合为一个统一的过程,从而优化投资组合的表现。本文提出了一种基于收益和损失的奖励函数的环境形式,并采用了Soft Actor-Critic代理和卷积神经网络与多头注意力机制的架构,以提高模型的风险管理和资本优化能力。本文还介绍了在Binance永续期货市场上使用多样化的12种加密资产组成的投资组合作为强化学习环境的实现方法,并对测试结果进行了分析。

二、相关工作

       投资组合管理问题的数学建模方法,包括单期投资组合优化模型和多期投资组合优化模型。单期模型采用静态方法,在投资期开始时优化投资组合权重,但常被批评过于依赖历史数据和过于简化假设。多期模型允许周期性重新评估和调整投资组合权重,采用动态规划、随机规划和随机动态规划等方法寻找最优投资组合权重。其中,基于强化学习的投资组合管理模型应用广泛,包括代理、环境、动作、状态和奖励函数等五个关键元素,以优化权重优化为重点。代理通常采用神经网络实现策略,学习算法包括Q-learning、DQN、DDQN、DPG、DDPG和A2C等。最近的研究还关注了注意力机制和定制化学习算法。

​​​​​​​       本文综述了强化学习在投资组合管理中的应用。研究者们通过设计环境和奖励函数来优化投资组合权重,其中离散和连续的权重确定方法各有优缺点。数据预处理和技术指标的应用可以提高模型性能。奖励函数通常包括投资组合回报率、夏普比率和利润等。然而,现有研究忽略了负权重和借贷的影响,需要重新设计环境和奖励函数来更好地管理风险和资本。

三、方法

3.1 强化学习

​​​​​​​       强化学习可以用元组(S, A, R a , P a , γ)来描述,其中S表示状态表示集合,A表示代理可用的行动集合,R a 表示由于行动a而转移到新状态后立即获得的奖励,P a 表示状态转移概率,γ表示折扣因子,代理的目标是找到最优策略,将状态映射到行动以最大化累积折扣奖


http://www.kler.cn/news/340129.html

相关文章:

  • 模拟算法基础C++
  • 计算机毕业设计 基于Python的新闻采集与订阅平台的设计与实现 Python+Django+Vue 前后端分离 附源码 讲解 文档
  • TM1618控制共阳极数码管的数据传送问题
  • everyday_question dq20240731
  • TCL Android面试题大全及参考答案
  • python 实现kahns algorithm卡恩算法
  • 人脸表情行为识别系统源码分享
  • 【网络安全】利用XSS、OAuth配置错误实现token窃取及账户接管 (ATO)
  • AMD股价分析:AMD股价能否再次反弹至200美元?以下是你该知道的!
  • 论文阅读笔记-How to Fine-Tune BERT for Text Classification?
  • 某大型钢铁集团公司高管竞聘上岗方案设计咨询项目
  • 嵌入式仿真实验教学平台
  • Redis:cpp.redis++类型操作
  • 目标检测 Deformable DETR(2021)详细解读
  • gaussdb hccdp认证模拟题(判断)
  • 鹧鸪云光伏软件全面解析
  • 基于jmeter+perfmon的稳定性测试记录
  • 爬虫案例——爬取腾讯社招
  • Redis Stack十部曲之四:与Redis数据之间的交互
  • 十年网络安全工程师谈学习网络安全的正确顺序