当前位置: 首页 > article >正文

【CS285】为什么需要推导 REINFORCE-Gradient 公式呀?

1. 问题描述

Sergey在【CS285: Lecture 5】中详细地讲述了REINFORCE梯度公式:
∇ θ J ( θ ) ≈ 1 N ∑ i = 1 N ∇ θ log ⁡ π θ ( τ ) r ( τ ) \nabla_\theta J(\theta)\approx\frac{1}{N}\sum_{i=1}^{N}\nabla_{\theta}\log\pi_{\theta}(\tau)r(\tau) θJ(θ)N1i=1Nθlogπθ(τ)r(τ)
并提到:

Sergey: we talked about evaluating the policy gradient, where we have to use this log-gradient trick to remove the terms that we don’t know, namely the initial state probability and the transition probability, and then we can again evaluate the policy gradient using samples…

刚开始我们有些不能理解为什么这里一定要将 π θ \pi_{\theta} πθ变成“ log ⁡ π θ \log\pi_{\theta} logπθ”的形式,感觉似乎是“多余的”……

2. “为了引入 θ \theta θ实现梯度回传”

2.1 直接使用目标函数存在的问题

首先回顾一下REINFORCE的目标函数:
在这里插入图片描述
这里可以显式地看到,存在如下的问题:

Q1 J ( θ ) J(\theta) J(θ)'s Monte Carlo Approximation 中没有包含网络参数 θ \theta θ

于是直接使用该估计则是无法实现反向传播的;


那么,如果换一种思路呢?是否可以直接使用原始期望公式进行估计呢?
这里可以仔细看看Sergey列出的公式,
在这里插入图片描述
经过仔细观察发现,“直接使用原始期望公式进行估计”这个想法也是行不通的,因为

Q2:轨迹概率公式中的 the initial state probability p ( s 1 ) p\left(\mathbf{s}_1\right) p(s1) and the transition probability p ( s t + 1 ∣ s t , a t ) p\left(\mathbf{s}_{t+1} \mid \mathbf{s}_t, \mathbf{a}_t\right) p(st+1st,at) 都是未知的(model-free场景),所以轨迹概率 p θ ( τ ) p_\theta(\tau) pθ(τ)是无法计算的;


http://www.kler.cn/a/560292.html

相关文章:

  • 标定系列——基于标定板的相机内参与LiDAR-相机外参联合标定方法
  • IOS基础面试题
  • 数学建模之数学模型—2:非线性规划
  • Visual Whole-Body for Loco-Manipulation论文复现
  • 【Unity】Unity clone 场景渲染的灯光贴图异位问题
  • 【Java 优选算法】模拟
  • 客户反馈中常见的投诉类型及应对策略
  • OpenBMC:BmcWeb server.run
  • 【OMCI实践】ONT上线过程的omci消息(五)
  • Web刷题之PolarDN(中等)
  • 验证码介绍及生成与验证
  • Python的PyTorch+CNN深度学习技术在人脸识别项目中的应用
  • Android开发数据持久化
  • HTML使用 Vue 3 和 Element Plus 实现图片上传功能
  • 《渗透测试方法论:从信息搜集到报告输出的死亡行军》
  • python学习一
  • Spring Boot 项目启动命令大全:参数详解与高阶用法
  • (六)趣学设计模式 之 代理模式!
  • Hyperledger Fabric 入门笔记(十九)Fabric V2.5 杂项 - 在开发模式下运行链码
  • OpenCV计算摄影学Computational Photography