当前位置: 首页 > article >正文

【机器学习/大模型/八股文 面经 (一)】

1. PPO算法中使用GAE的好处以及参数γ和λ的作用是什么?

参考答案

  • GAE(Generalized Advantage Estimation) 的优势在于通过指数加权多步TD误差,平衡优势估计的偏差与方差,提升策略优化的稳定性。
  • γ(折扣因子):控制未来奖励的衰减程度,值越大表示更关注长期收益。
  • λ(GAE衰减因子):调节多步优势估计的权重,λ=1时等价于蒙特卡洛估计(高方差低偏差),λ=0时退化为单步TD误差(低方差高偏差)。

2. PPO算法和DQN算法的区别是什么?

参考答案

  • PPO:基于策略梯度方法,直接优化策略网络,支持连续动作空间,通过重要性采样和Clip机制限制策略更新幅度。
  • DQN:基于值函数逼近,学习Q值网络,仅适用于离散动作空间&#x

http://www.kler.cn/a/599258.html

相关文章:

  • 如何扩展 Linux 中 ext4 文件系统的大小
  • 补Java基础之重生(13)类与对象(补充版)+面向对象综合案例
  • 智算中心系统化建设与运营框架
  • Netty源码—5.Pipeline和Handler一
  • 2000-2019年各省地方财政耕地占用税数据
  • Tailwind CSS 学习笔记(四)
  • 免费试用优化指南:提升转化率的关键策略
  • STM32:关于NVIC的工作与优先级分组方式
  • std::endl为什么C++ 智能提示是函数?
  • Python----计算机视觉处理(Opencv:图像亮度变换)
  • 【HTML5】02-列表 + 表格 + 表单
  • C语言动态顺序表的实现
  • 日常学习开发记录-select组件(1)
  • 【Linux】同步原理剖析及模拟BlockQueue生产消费模型
  • 数据结构--红黑树
  • SpringBoot星之语明星周边产品销售网站设计与实现
  • 23种设计模式-组合(Composite)设计模式
  • 第十六届蓝桥杯康复训练--6
  • 【C++】类和对象(匿名对象)
  • 【Unity】批处理和实例化的底层优化原理(未完)