当前位置：首页 > article >正文

【机器学习/大模型/八股文面经（一）】

article 2025/3/29 1:19:22

1. PPO算法中使用GAE的好处以及参数γ和λ的作用是什么？

参考答案：

GAE（Generalized Advantage Estimation） 的优势在于通过指数加权多步TD误差，平衡优势估计的偏差与方差，提升策略优化的稳定性。
γ（折扣因子）：控制未来奖励的衰减程度，值越大表示更关注长期收益。
λ（GAE衰减因子）：调节多步优势估计的权重，λ=1时等价于蒙特卡洛估计（高方差低偏差），λ=0时退化为单步TD误差（低方差高偏差）。

2. PPO算法和DQN算法的区别是什么？

参考答案：

PPO：基于策略梯度方法，直接优化策略网络，支持连续动作空间，通过重要性采样和Clip机制限制策略更新幅度。
DQN：基于值函数逼近，学习Q值网络，仅适用于离散动作空间&#x

http://www.kler.cn/a/599258.html

相关文章：

如何扩展 Linux 中 ext4 文件系统的大小

补Java基础之重生（13）类与对象（补充版）+面向对象综合案例

智算中心系统化建设与运营框架

Netty源码—5.Pipeline和Handler一

2000-2019年各省地方财政耕地占用税数据

Tailwind CSS 学习笔记(四)

免费试用优化指南：提升转化率的关键策略

STM32:关于NVIC的工作与优先级分组方式

std::endl为什么C++ 智能提示是函数？

Python----计算机视觉处理（Opencv:图像亮度变换)

【HTML5】02-列表 + 表格 + 表单

C语言动态顺序表的实现

日常学习开发记录-select组件（1）

【Linux】同步原理剖析及模拟BlockQueue生产消费模型

数据结构--红黑树

SpringBoot星之语明星周边产品销售网站设计与实现

23种设计模式-组合(Composite)设计模式

第十六届蓝桥杯康复训练--6

【C++】类和对象（匿名对象）

【Unity】批处理和实例化的底层优化原理（未完）