人工智能课程笔记(7)强化学习(基本概念 Q学习 深度强化学习 附有大量例题)
文章目录
- 1.强化学习与深度学习的区别
- 2.强化学习中的基本概念
- 3.强化学习、有监督学习和无监督学习的区别
- 4.强化学习的特点
- 5.离散马尔可夫过程
- 6.马尔可夫奖励过程
- 7.马尔可夫决策过程
- 8.策略学习
- 8.1.策略学习概念
- 8.2.策略评估与贝尔曼方程
- 9.强化学习的最优策略求解
- 10.基于价值的强化学习求解方法
- 10.1.策略优化
- 10.2.策略评估
- 10.2.1.动态规划法策略评估
- 10.2.2.蒙特卡洛采样法策略评估
- 10.2.3.时序差分法策略评估
- 11.Q-learning(重点)
- 12.深度强化学习
1.强化学习与深度学习的区别
强化学习和深度学习都是机器学习的分支,但是两者在方法和应用场景上有所不同。
- 强化学习:
- 强化学习概述:强化学习是一种通过智能体与环境进行交互来学习最优行动策略的算法。在强化学习中,智能体与环境不断交互,观察环境的状态并采取不同的行动,从而获得奖励或惩罚。智能体根据这些奖励或惩罚来调整自己的策略,最终学习到最优的行为策略。
- 强化学习的应用领域:强化学习在游戏、机器人控制、自动驾驶等领域有广泛应用。
- 深度学习:一种基于深度神经网络的机器学习方法。通过多层神经元的连接来学习输入数据的特征表示。深度学习可以利用大量的数据来训练模型,从而实现对图像、语音、自然语言等复杂数据的自动识别和分类。深度学习在计算机视觉、语音识别、自然语言处理等领域都有广泛的应用。
2.强化学习中的基本概念
强化学习中包含几个基本概念:智能主体、状态、动作、奖励和环境。
- 智能主体:智能主体是指执行学习任务的实体,它通过与环境的交互来学习最优策略。智能主体在每个时间步都会观察当前的状态,并根据当前状态选择一个动作来执行。
- 状态:状态是指智能主体在环境中所处的情境或场景,它包含了智能主体需要知道的所有信息。状态可以是离散的或连续的,取决于具体的应用场景。
- 动作:动作是指智能主体在某个状态下可以采取的行动或决策。动作也可以是离散的或连续的,取决于具体的应用场景。在强化学习中,智能主体的目标是通过选择最优的动作来最大化累积的奖励。
- 奖励:奖励是指智能主体在某个状态下采取某个动作所获得的反馈信号。奖励可以是正的、负的或零,反映了智能主体的行动对当前任务的贡献。智能主体的目标是通过选择最优的动作来最大化累积的奖励。
- 环境:在强化学习中,环境是指智能主体所处的外部环境,它包含了智能主体所能感知到的一切信息。环境可以是离散的或连续的,并且可以是确定性的或随机的。
在强化学习中,智能主体通过不断与环境交互,并根据获得的奖励来不断调整自己的策略,最终学习到最优的行动策略。智能主体通过观察当前状态,选择最优的动作,并获得相应的奖励,不断迭代学习,从而实现任务的优化。
3.强化学习、有监督学习和无监督学习的区别
强化学习、有监督学习和无监督学习是机器学习中三种不同的学习范式,它们的区别如下:
- 监督学习:监督学习是指给定一组输入和对应的输出数据,通过训练一个模型来实现输入到输出的映射关系。监督学习的目标是学习一个通用的映射函数,使得对于未见过的输入数据,模型能够正确地预测输出。监督学习常用于分类、回归等任务。
- 无监督学习:无监督学习是指从未标注的数据中学习数据的内在结构和模式。无监督学习的目标是发现数据中的潜在规律和结构,从而实现数据的聚类、降维等任务。无监督学习常用于聚类、降维、生成模型等任务。
- 强化学习:强化学习是指通过智能体与环境的交互来学习最优策略的算法。强化学习的目标是通过选择最优的动作来最大化累积的奖励。强化学习常用于游戏、机器人控制、自动驾驶等领域。
总体来说,监督学习需要有标注的数据作为输入,无监督学习不需要标注的数据,而强化学习则是通过与环境的交互来学习最优策略。监督学习和无监督学习都是从数据中学习模型,而强化学习则是从智能体与环境的交互中学习模型。
相关例题:
解析:
这句话是错误的,因为2016年战胜李世石的AlphaGo并不是仅通过无监督学习机制来训练的。实际上,AlphaGo使用了一种结合了监督学习和强化学习的方法来训练。首先,AlphaGo的训练分为两个阶段。在第一阶段,它使用了监督学习的方法。AlphaGo的研究团队收集了大量的人类围棋高手对局数据,包括棋谱和对应的胜率。这些数据带有标注信息,可以被用来训练神经网络预测走子的概率分布和胜率。这个阶段就是利用了样本的标注信息,而监督学习是用于找到这些输入与输出之间的映射关系。
在第二阶段,AlphaGo使用了强化学习的方法。在这个阶段,神经网络通过自我对弈,不断地与自己进行围棋对局,从而学习在不同的棋局状态下如何选择最优的走子。通过这种自我强化的方式,AlphaGo进一步提升了其在围棋中的表现。
另外,在这个过程中,AlphaGo 也利用了无监督学习机制,通过对自己的对弈记录进行学习,来进一步提高其棋艺。因此,由于AlphaGo在训练过程中既使用了监督学习又使用了强化学习,同时还使用了无监督学习,所以说它仅通过无监督学习机制训练是错误的。
解析:本题答案为A选项。
强化学习是一种通过与环境交互来学习最优行为的机器学习方法。在强化学习中,智能体通过与环境交互来观察状态和获取奖励信号,并根据奖励信号来调整自己的行为策略。因此,强化学习被描述为一种评估学习方式,因为它是通过评估行为策略的好坏来进行学习的。监督学习是一种通过标注信息来进行学习的机器学习方法。在监督学习中,我们需要准备一组已经标注好了的数据,然后通过让机器学习从这些数据中学习规律和模式,来实现对未来数据的预测和分类。因此,监督学习被描述为一种有标注信息学习方式,因为它需要用到已经标注好了的数据。
深度卷积神经网络是一种专门用于处理图像、视频等高维数据的神经网络。它的特点是通过多层卷积和池化操作来逐步提取数据的特征,从而实现对数据的分类和识别。深度卷积神经网络通常需要从原始数据到最终输出结果之间的所有计算过程都通过学习来实现,因此被描述为一种端到端学习方式。这种学习方式的好处是可以避免手工设计特征,从而提高模型的泛化能力和效果。
解析:本题的答案是A选项。
解析:本题的正确选项为ABCD。
4.强化学习的特点
强化学习是一种基于试错的学习范式,有以下几个特点:
- 基于评估:强化学习的目标是最大化累积奖励,因此它依赖于奖励函数来评估智能主体的行为。智能主体通过尝试不同的动作来最大化累积奖励,并根据奖励的反馈调整行为策略。
- 交互性:强化学习是通过智能主体与环境的交互来学习最优策略的过程。智能主体在每个时间步都观察当前的状态,并根据当前状态选择一个动作来执行。环境会根据智能主体的动作返回下一个状态和相应的奖励。
- 序列决策过程:强化学习是一种序列决策过程,即智能主体在每个时间步都需要根据当前状态和之前的行为历史来选择动作。智能主体需要考虑到未来的奖励和风险,才能做出最优的决策。
- 奖励滞后:在强化学习中,智能主体的行为会影响未来的奖励,因此奖励通常具有滞后性。也就是说,一个动作的奖励可能要在未来的几个时间步才能体现出来。这对于智能主体来说是一个挑战,因为它需要在无法预知未来的情况下做出决策。
- 基于采样评估:在强化学习中,智能主体需要通过与环境的交互来学习最优策略。由于环境的状态空间通常非常大,因此智能主体需要通过采样的方式来评估不同的策略。智能主体需要不断地进行试错,才能找到最优的策略。
5.离散马尔可夫过程
离散随机过程:离散随机过程是指在离散时间点上的一组随机变量序列,通常用于描述随机事件在时间上的演化过程。
马尔可夫链:马尔可夫链是一种特殊的离散随机过程,也就是满足马尔可夫性:过程中某一个时刻的状态只与前面的指定个数个状态有关,而与再之前的状态无关。指定状态的个数称为马尔可夫链的阶数。
离散马尔可夫过程与刻画方法:
- 离散马尔可夫过程概述:离散马尔可夫过程是一类特殊的马尔可夫链,它在实际应用中更加广泛。与马尔可夫链不同的是,离散马尔可夫过程的状态转移概率可以随时间变化,即转移概率矩阵可以取决于时间。
- 离散马尔可夫过程的刻画方法:离散马尔可夫过程可以用状态转移矩阵来刻画。具体来说,设该过程有 n n n个状态, P = ( p i j ) P=(p_{ij}) P=(pij)是一个 n × n n \times n n×n的矩阵,其中 p i j p_{ij} pij表示从状态 i i i转移到状态 j j j的概率,即在当前时刻 t t t处于状态 i i i时,在下一个时刻 t + 1 t+1 t+1转移到状态 j j j的概率。同时, P P P的每一行之和为1,即 ∑ j = 1 n p i j = 1 \sum_{j=1}^{n} p_{ij} = 1 ∑j=1npij=1。
相关例题:
解析:马尔可夫链中的马尔可夫性就是指某一个时刻的状态仅取决于前一个时刻的状态(对于一阶马尔可夫链)。
6.马尔可夫奖励过程
马尔可夫奖励过程概述:
- 马尔可夫奖励过程是一种马尔可夫随机过程,它描述了一个智能体在一个马尔可夫转移概率矩阵和一个奖励函数的指导下与环境进行交互的过程。
- 在马尔可夫随机过程中加入奖励机制是为了指导智能体在交互过程中做出正确的决策。在强化学习中,智能体需要通过与环境的交互来学习如何在不同的状态下选择最优的动作。
- 引入奖励机制后,就可以衡量任意动作序列的优劣,也就是对智能体采取的动作序列进行评价。
反馈与衰退系数:在强化学习中,奖励、反馈和衰减系数之间存在密切的关系,它们共同影响着智能体的学习过程。
- 奖励的概念:奖励是智能体在某个状态下所接收到的数值信号,用于指导智能体在当前状态下应该采取哪个动作。
- 反馈的概念:反馈是智能体与环境之间的交互过程中,智能体接收到的关于其行为好坏的信息,通常用于反映累加的奖励。
- 衰减系数的概念:衰减系数是一个小于等于1的值,用于衰减未来奖励的重要性。衰减系数越小,未来奖励的重要性就越低。
- 奖励、反馈和衰减系数的关系:
反馈值 = r1 + γ * r2 + γ^2 * r3 + ... + γ^(n-1) * rn
,其中,r1到rn表示智能体在不同时间步骤下所接收到的奖励,γ是衰减系数,n是交互过程的总时间步数。可以看出,衰减系数γ的作用是对未来奖励进行衰减,使得离当前时间步骤越远的奖励对累积奖励的贡献越小。
马尔可夫奖励过程的完整描述:马尔可夫奖励过程可以通过一个四元组表示,四元组中的内容如下:
- 随机变量序列:马尔可夫奖励过程中,智能体与环境之间的交互过程可以看作是一个随机变量序列。随机变量序列包含一系列表示智能体所处状态的随机变量,每个随机变量表示智能体在一个时间步骤下所处的状态。因此,随机变量序列可以表示为 S1, S2, S3, …, 其中Si表示智能体在第i个时间步骤下所处的状态。
- 状态转移概率:状态转移概率指的是从一个状态转移到另一个状态的概率,它可以表示为P(s’|s),其中s表示当前状态,s’表示下一个状态。状态转移概率可以用来描述环境的动态特性,它描述了智能体在当前状态下采取不同动作所可能到达的下一个状态以及到达这些状态的概率。
- 奖励函数:奖励函数指的是智能体在每个时间步骤下所获得的奖励,它可以表示为R(s),其中s表示当前状态。奖励函数可以用来评估智能体在当前状态下的行为好坏,是智能体学习最优策略的重要指导信号。
- 衰退系数:衰退系数指的是未来奖励的重要性衰减的速度,它可以表示为γ,γ的取值范围为[0,1]。在马尔可夫奖励过程中,智能体的目标是最大化累积奖励,衰减系数用于对未来奖励进行衰减,使得离当前时间步骤越远的奖励对累积奖励的贡献越小。
7.马尔可夫决策过程
马尔可夫决策过程和奖励过程的关系:
- 马尔可夫决策过程是马尔可夫奖励过程的扩展。
- 马尔可夫决策过程在马尔可夫奖励过程的基础上增加了决策动作的概念,增加了一个动作集合A,代表智能体在每个状态下可以采取的所有动作。在马尔可夫决策过程中,智能体在每个时间步骤下根据当前状态采取一个动作,环境根据当前状态和采取的动作给出下一个状态和奖励,智能体根据获得的奖励和下一个状态再次决策。
马尔可夫决策过程的地位:强化学习的基本求解框架,同时也是刻画强化学习中的环境的标准形式。
马尔可夫决策过程要素概述:
- 状态集合:MDP的状态集合表示环境中可能出现的所有状态,通常由一组特征表示。
- 动作集合:MDP的动作集合表示智能体在每个状态下可以采取的所有动作。动作可以是离散的,也可以是连续的。
- 状态转移概率:状态转移概率指的是从一个状态通过采取某个动作转移到另一个状态的概率。状态转移概率可以表示为P(s’|s,a),其中s表示当前状态,a表示采取的动作,s’表示下一个状态。
- 奖励函数:奖励函数指的是智能体在每个时间步骤下所获得的奖励,它可以表示为R(s,a,s’),其中s表示当前状态,a表示采取的动作,s’表示下一个状态。
- 衰减系数:衰减系数指的是未来奖励的重要性衰减的速度,它可以表示为γ,γ的取值范围为[0,1]。
轨迹和片段的概念:
- 轨迹的概念:轨迹是指马尔可夫过程中产生的状态序列。轨迹的长度可以是无限的,也可以有终止状态。有终止状态的问题被称为分段的,否则叫做持续的。
- 片段的概念:在分段的问题中,一个从初始状态到终止状态的完整轨迹被称为一个片段。
相关例题:
解析:
马尔可夫决策过程在马尔可夫奖励过程的基础上引入了决策动作的概念,即动作。
马尔可夫决策过程和马尔可夫奖励过程的主要区别在于是否涉及决策。在马尔可夫奖励过程中,我们只需要计算从一个初始状态开始,按照某个策略获得的期望累积奖励即可。而在马尔可夫决策过程中,我们需要找到一种最优策略,使得期望累积奖励最大。因此,马尔可夫决策过程需要考虑采取的动作,而马尔可夫奖励过程则只需要考虑当前状态下的奖励和状态转移。
8.策略学习
8.1.策略学习概念
策略学习概述:
- 在马尔可夫决策过程中,策略学习是指从马尔可夫决策过程的奖励信号中学习出最优策略的过程。最优策略指的是在每个状态下采取最优动作可以获得最大的累积奖励。
- 策略学习是强化学习的核心问题之一,其目标是设计一个智能体能够自主地学习最优策略,并在实际环境中做出正确的决策。
策略函数概述:
- 策略函数的概念:在马尔可夫决策过程中,策略函数是指从状态到动作的映射,用来确定智能体在每个状态下应该采取什么动作。
- 策略函数表示方法:策略函数通常用符号π表示,即π(a|s)表示在状态s下采取动作a的概率。
- 确定策略和随机策略:策略函数可以是确定性策略或者随机策略。确定性策略直接给出在每个状态下应该采取的动作,即π(s)=a。随机策略则给出在每个状态下采取每个动作的概率。
策略学习的步骤:
- 建立MDP模型:根据问题的具体情况,建立MDP模型,包括状态集合、动作集合、状态转移概率、奖励函数和衰减系数。
- 定义策略:定义一个策略,即一个从状态到动作的映射。策略可以是确定性策略,也可以是随机策略。
- 评估策略:评估策略的好坏,可以使用值函数或者回报函数。值函数表示从当前状态开始,采取某个策略能够获得的期望累积奖励。回报函数表示从当前状态开始,采取某个策略所获得的累积奖励。
- 改善策略:根据策略评估的结果,改善当前的策略,使得策略更加接近最优策略。可以采用贪心策略或者随机策略来改善策略。
- 迭代改善策略:根据当前策略的评估和改善结果,进行迭代改善策略,直到策略收敛于最优策略。
8.2.策略评估与贝尔曼方程
策略评估的方法:可以通过状态值函数和动作-价值函数对策略进行评估。
- 状态值函数:状态值函数Vπ(s)是针对某个状态s的,表示在状态s下执行某个策略π所能获得的期望累积奖励。其计算方式为考虑从状态s开始,按照策略π采取行动,并按照MDP的状态转移概率计算未来的累积奖励,最后取期望值。
- 动作-价值函数:动作-价值函数Qπ(s,a)是针对某个状态s和动作a的组合的,表示在状态s下采取动作a,然后按照策略π所能获得的期望累积奖励。其计算方式为从状态s采取动作a开始,按照策略π继续执行,并按照MDP的状态转移概率计算未来的累积奖励,最后取期望值。
- 状态值函数和动作-价值函数的关系:状态值函数和动作-价值函数之间存在一种递归关系。具体来说,动作-价值函数可以通过状态值函数来计算。我们可以将动作-价值函数表示为在状态s下采取动作a后获得的奖励r和下一个状态的值函数Vπ(s’)的和的期望值。这个下一个状态的值函数Vπ(s’)又可以通过状态值函数来计算。因此,动作-价值函数可以通过递归地计算状态值函数来得到。
贝尔曼方程:贝尔曼方程是用于描述马尔可夫决策过程的基本方程之一,它是强化学习算法的核心之一。贝尔曼方程描述了状态值函数和动作-价值函数之间的递归关系,它是强化学习算法中求解最优策略的基础。
相关例题:
9.强化学习的最优策略求解
强化学习的学习目的:强化学习的目的是学习最优策略。智能体的目标是学习一种最优策略,使得在任何状态下采取的动作都能够获得最大的期望回报。
强化学习问题求解过程概述:
- 定义强化学习问题:首先需要明确强化学习问题的形式,包括智能体与环境的交互方式、状态空间、动作空间、奖励函数、策略函数等。
- 选择算法:根据强化学习问题的形式和要求,选择合适的强化学习算法,如Q-learning、SARSA、Actor-Critic等。
- 初始化:初始化智能体的策略、价值函数等参数。
- 与环境交互:智能体与环境进行交互,即根据当前状态选择动作,执行动作,观察环境反馈的奖励和下一个状态,更新智能体的策略和价值函数等参数。
- 收集经验:在与环境交互的过程中,智能体需要不断地收集经验,包括当前状态、采取的动作、奖励和下一个状态,以便在后续的学习中使用。
- 更新策略和价值函数:根据收集的经验,更新智能体的策略和价值函数等参数,以便在未来能够更好地选择动作。
- 改进策略:根据更新后的策略和价值函数,改进智能体的策略,以便在未来能够获得更高的回报。
- 重复以上步骤:不断地与环境交互、收集经验、更新策略和价值函数等参数,直到达到预设的终止条件(如收敛或达到最大迭代次数)。
强化学习的求解方法分类:
- 基于价值的求解方法:对价值函数进行建模和估计,以此作为依据制定策略。
- 基于策略的求解方法:对策略函数直接进行建模和估计,优化策略函数使得反馈最大化。
- 基于模型的求解方法:对环境的运作机制进行建模,然后进行相关规划。
后续过程中讲主要介绍基于价值的求解方法。
10.基于价值的强化学习求解方法
基于价值的强化学习求解方法可以分为策略优化和策略评估两个部分。
10.1.策略优化
策略优化的目的:策略优化是强化学习求解过程中的重要步骤之一,其目的是通过对策略进行优化,使智能体能够获得更高的回报。
策略优化定理:策略优化定理是强化学习中的重要理论基础之一,它说明了在一定条件下,对于任何确定性策略或随机策略,都可以通过一定的优化算法来找到一个最优策略。具体来说,策略优化定理通常有以下两个版本:
- 对于有限马尔可夫决策过程,存在一个最优策略,可以使得在任何初始状态下,智能体采取这个策略都能够获得最大的期望回报。
- 对于连续马尔可夫决策过程,存在一个最优策略,可以使得在任何初始状态下,智能体采取这个策略都能够获得最大的期望回报。
10.2.策略评估
需要通过迭代计算贝尔曼方程的方式对策略进行评估,常用的三种方法分别是动态规划法、蒙特卡洛采样法和时序差分方法。
10.2.1.动态规划法策略评估
动态规划法策略评估概述:
- 基于动态规划的策略评估是一种计算每个状态的价值函数的方法。如果我们知道每个状态的价值函数,那么我们就知道了在这个状态下采取任何动作的长期价值。这对于智能体来说非常重要,因为它需要知道哪个状态更有价值,以便能够做出好的决策。
- 具体来说,基于动态规划的策略评估方法是通过反复迭代计算每个状态的价值函数,直到价值函数收敛为止。这个过程就像是一个人在不断地试着估算自己手里的牌的价值一样,直到他相信自己已经估算得很准确了。
动态规划法策略评估步骤概述:首先,我们假设每个状态的价值都是 0。然后,我们基于策略和环境模型,计算每个状态的期望回报,也就是在这个状态下采取策略后未来所有可能的回报的平均值。接着,我们更新每个状态的价值函数,使其等于这个期望回报。然后,我们重复这个过程,直到每个状态的价值函数都不再变化为止。
动态规划法策略评估的缺点:
- 智能体需要事先知道状态转移概率。
- 不适合处理状态集合非常大的情况。
10.2.2.蒙特卡洛采样法策略评估
蒙特卡洛采样法策略评估概述:
- 基于蒙特卡洛采样的策略评估是另一种计算每个状态的价值函数的方法。与基于动态规划的方法不同,它不需要事先知道环境的转移概率和奖励函数,而是通过与环境进行交互来收集样本数据,并从中估算状态的价值函数。
- 具体来说,基于蒙特卡洛采样的策略评估方法是通过多次模拟实验来估算每个状态的回报,然后计算每个状态的价值函数。
蒙特卡洛采样法策略评估步骤概述:首先,我们采用给定的策略与环境进行交互,得到一个完整的轨迹,包括起始状态、动作序列和对应的回报。接着,我们对该轨迹中的每个状态,计算所有未来回报的平均值,作为该状态的估算价值。然后,我们重复这个过程,多次模拟实验,收集大量样本数据。最后,我们将所有的样本数据聚合起来,计算每个状态的平均回报,作为该状态的真实价值函数的估计值。
蒙特卡洛采样法策略评估缺点:
- 当状态集合比较大时,一个状态在轨迹中可能非常稀疏,不利于估计期望。
- 在实际问题中,最终反馈需要在终止状态后才能得知,导致反馈周期很长。
10.2.3.时序差分法策略评估
时序差分法策略评估概述:
- 基于时序差分的价值函数更新方法是一种通过不断更新状态的价值函数来优化策略的方法。与基于动态规划和蒙特卡洛采样的方法不同,它可以在不完整的样本数据中进行学习,并且可以边学习边优化策略。
- 具体来说,基于时序差分的价值函数更新方法是通过在每个时间步更新状态的估算价值,来逼近真实的价值函数。
时序差分法策略评估步骤概述:首先,我们采用给定的策略与环境进行交互,得到一个状态转移样本,包括当前状态、采取的动作、下一个状态和对应的即时奖励。接着,我们利用当前的估算价值函数,计算当前状态的估算价值,以及下一个状态的估算价值。然后,我们利用当前状态的估算价值、下一个状态的估算价值和即时奖励,来更新当前状态的估算价值。这个更新过程就像是一个人在不断地根据自己手里的牌的情况,调整每张牌的价值一样。
相关例题:
解析:本题的答案为A选项。容易产生混淆的是C选项,下面将进行辨析。
与最大化终止状态可获得的最大期望相比,最大化未来可以获得的反馈值的最大期望更符合强化学习的特点。这是因为在强化学习中,智能体通常需要面对一个连续的决策过程,而不是一个简单的单次决策。在这样的连续决策过程中,智能体需要通过不断地采取动作来获得反馈,从而逐步地优化策略,达到最大化累积回报的目标。
11.Q-learning(重点)
Q-learning算法概述:Q-learning是一种经典的强化学习算法,用于学习动作-值函数(Q函数),并利用该函数来选择动作和优化策略。它属于基于时序差分的价值函数更新方法,,是策略优化和策略评估的结合,可以在不完整的样本数据中进行学习,并且可以边学习边优化策略。
Q-learning的算法步骤:首先,我们初始化动作-值函数 Q ( s , a ) Q(s,a) Q(s,a),并选择一个初始状态 s 0 s_0 s0。然后,我们开始与环境进行交互,采取一个动作 a a a,得到下一个状态 s ′ s' s′ 和对应的即时奖励 r r r。接着,我们利用当前的动作-值函数 Q Q Q,计算当前状态-动作对 ( s , a ) (s,a) (s,a) 的估算值 Q ( s , a ) Q(s,a) Q(s,a),以及下一个状态 s ′ s' s′ 的最大动作-值函数 max a ′ Q ( s ′ , a ′ ) \max_{a'} Q(s',a') maxa′Q(s′,a′)。然后,我们利用当前状态-动作对 ( s , a ) (s,a) (s,a) 的估算值 Q ( s , a ) Q(s,a) Q(s,a)、下一个状态 s ′ s' s′ 的最大动作-值函数 max a ′ Q ( s ′ , a ′ ) \max_{a'} Q(s',a') maxa′Q(s′,a′) 和即时奖励 r r r,来更新动作-值函数 Q ( s , a ) Q(s,a) Q(s,a)。这个更新过程就像是一个人在不断地根据自己手里的牌的情况,调整每张牌的价值一样。
Q学习过程更加通俗的概述:假设当前处于某一种状态下,智能体需要判断执行不同的动作哪一种动作的潜在奖励更高,并最终执行潜在奖励更高的动作。这里的潜在奖励可以用一个Q表进行表示,Q表中的元素可以称为Q值。最开始Q表是未知的,需要在学习过程中进行调整。调整的过程为:根据现实和估计的差距,按照一定的学习率将估计和现实进行逼近,使得估计值和现实值的差距越来越小。
Q-learning的计算例题(重要):(期末考试前再填坑!)
探索和利用的平衡:在强化学习中,探索和利用是一个重要的平衡问题。在Q-learning中,引入探索和利用的机制可以提高算法的性能和稳定性,避免陷入局部最优解或过度探索的情况:如果只进行利用,可能会导致算法陷入局部最优解中,无法找到全局最优解;而如果只进行探索,可能会导致算法浪费大量的时间和资源,无法收敛到最优解。
- 探索:探索指的是尝试在未知的状态或动作空间中尝试新的行动,以发现新的有用信息,体现在不根据当前策略而且尝试未知的动作。
- 利用:利用指的是基于已有的知识和经验选择已知的最优行动;体现在根据当前已知的策略来选择动作。
- Q-learning中的 ϵ \epsilon ϵ-贪心策略: ϵ \epsilon ϵ-贪心策略以一定的概率 ϵ \epsilon ϵ 随机选择未知的动作,以便探索新的状态;而在其余的时间中,则根据已有的知识和经验选择具有最大Q值的动作。这样可以在保证利用已有知识的同时,不断探索新的状态和动作,从而提高算法的性能和稳定性。
相关例题:
解析:本题选择C选项。
在Q-learning算法中,epsilon是用于控制智能体在探索(exploration)和利用(exploitation)之间的平衡的一个超参数。具体来说,epsilon是一个在0和1之间的值,它表示智能体在选择动作时会以epsilon的概率随机选择一个动作(探索),以1-epsilon的概率选择当前Q值最大的动作(利用)。
12.深度强化学习
深度强化学习概述:
- 深度强化学习是结合了深度学习和强化学习的一种学习框架。它可以自动从输入数据中学习到对复杂任务的高层次抽象表示,并通过强化学习算法自主决策和行动,从而实现端到端的学习和控制。
- 在深度强化学习中,深度学习模型通常被用来处理输入数据,并学习到数据的高层次抽象表示。
- 强化学习算法则被用来学习决策和行动,通过不断与环境交互,优化策略和价值函数,以最大化长期回报。
使用深度强化学习优化Q-learning:
- Q-learning是一种基于表格的强化学习算法,它可以在有限的状态空间和动作空间中找到最优策略。然而,在面对具有高维状态空间和连续动作空间的问题时,Q-learning很难进行有效的学习和优化。这时,可以使用深度强化学习来优化Q-learning算法。
- 具体来说,可以使用深度神经网络来逼近Q值函数,将Q-learning算法扩展到高维状态空间和连续动作空间的问题中。深度神经网络可以对高维状态空间中的输入进行非线性映射,学习到状态和动作之间的复杂关系,从而实现高维状态空间和连续动作空间的学习和优化。
- 使用深度神经网络来拟合Q函数的Q-learning算法被称为深度Q-learning算法。
深度Q-learning的两个不稳定因素:
- 相邻的样本来自同一条轨迹,样本之间的相关性太强,集中优化相关性强的样本可能导致神经网络在其他样本上的效果下降。
- 在损失函数中,q函数的值既用来估计目标值又用来计算当前值,这就导致优化时可能发生不稳定。
为了缓解这两个不稳定因素,分别引入了经验重现和目标网络两种方法。
经验重现:
- DQN中的经验重现是一种重要的训练策略,用于缓解DQN训练过程中样本相关性问题,提高训练的稳定性和效率。
- 经验重现的基本思想是,将智能体在环境中收集到的经验数据存储在一个经验回放缓冲区中,并从中随机抽取一定数量的样本进行训练。
目标网络: DQN中的目标网络是一种用于减小Q值函数中目标值波动性的技术,它基于一个固定的深度神经网络用于计算目标Q值,从而提高DQN的稳定性和收敛速度。
相关例题:
解析:本题的正确选项是D选项。