当前位置：首页 > article >正文

【RL Base】强化学习核心算法：深度Q网络（DQN）算法

article 2025/2/22 2:16:09

📢本篇文章是博主强化学习（RL）领域学习时，用于个人学习、研究或者欣赏使用，并基于博主对相关等领域的一些理解而记录的学习摘录和笔记，若有不当和侵权之处，指出后将会立即改正，还望谅解。文章分类在👉强化学习专栏：

【强化学习】（50）---《强化学习核心算法：深度Q网络（DQN）算法》

强化学习核心算法：深度Q网络（DQN）算法

1.深度Q网络（Deep Q-Network, DQN）算法详解

2.DQN基本原理

1. Q值函数

2. Bellman方程

3. 深度Q网络

3.DQN算法关键步骤

[Python] DQN算法实现

DQN算法在gym环境中实现

1.库导入

2.定义Q网络

3.定义智能体

4.训练代码

5.主函数

[Notice] 说明

4.重要改进

5.DQN的强化学习背景应用

1.深度Q网络（Deep Q-Network, DQN）算法详解

深度Q网络（DQN）是深度强化学习的核心算法之一，由Google DeepMind在2015年的论文《Playing Atari with Deep Reinforcement Learning》中提出。DQN通过结合深度学习和强化学习，利用神经网络近似Q值函数，在高维、连续状态空间的环境中表现出了强大的能力。

2.DQN基本原理

DQN的目标是通过学习动作-价值函数 $Q(s, a)$ ，来找到最优策略，使得智能体在每个状态 $s$ 下执行动作 $a$ 能获得的未来累积奖励最大化。

1. Q值函数

Q值函数表示在状态 $( s )$ 下执行动作 $( a )$ 后能够获得的期望回报：

$Q(s, a) = \mathbb{E}\left[ \sum_{t=0}^\infty \gamma^t r_t \mid s_0 = s, a_0 = a \right]$

$( r_t )$ : 第 $( t )$ 步的奖励。
$( \gamma )$ : 折扣因子，控制未来奖励的权重。

2. Bellman方程

Q值函数满足Bellman最优方程：

$Q^(s, a) = r + \gamma \max_{a'} Q^(s', a')$

$( s' )$ : 当前状态 $( s )$ 执行动作 $( a )$ 后转移到的下一个状态。
$( a' )$ : 下一步的可能动作。

3. 深度Q网络

DQN使用神经网络来近似Q值函数 $( Q(s, a; \theta) )$ ，其中 $( \theta )$ 是网络参数。网络输入是状态 $( s )$ ，输出是对应每个动作的Q值。

3.DQN算法关键步骤

3.1经验回放（Experience Replay）

通过存储智能体的交互经验 $( (s, a, r, s') )$ 在缓冲区中，并从中随机采样训练神经网络，打破时间相关性，提高数据样本效率。

3.2目标网络（Target Network）

使用一个目标网络 $( Q(s, a; \theta^-))$ 来计算目标值，而不是直接使用当前网络。这减少了训练不稳定性。

每隔一定步数，将当前网络的参数 $( \theta )$ 同步到目标网络 $( \theta^- )$ 。

3.3损失函数

使用均方误差（MSE）作为损失函数：

$L(\theta) = \mathbb{E}_{(s, a, r, s') \sim D}\left[\left(y - Q(s, a; \theta)\right)^2\right]$

其中目标值 $( y )$ 为： $y = r + \gamma \max_{a'} Q(s', a'; \theta^-)$

3.4探索与利用（Exploration vs Exploitation）

使用 $\epsilon$ -贪心策略，在动作选择上加入随机性