当前位置：首页 > article >正文

Diffusino Policy学习note

article 2025/2/28 15:42:49

Diffusion Policy—基于扩散模型的机器人动作生成策略 - 知乎

建议看看，感觉普通实验室复现不了这种工作。复现了也没有太大扩展的意义。

Diffusion Policy 是监督学习吗

Diffusion Policy 通常被视为一种基于监督学习的方法，但它的实际训练过程可能结合一些生成式模型的特点，因此更准确的说法是，它是一种 基于生成式建模的监督学习方法。以下是对其性质的分析：

需要标注数据： Diffusion Policy 的训练通常依赖于专家演示的数据（Expert Demonstrations），这些数据包含环境状态（State）和对应的专家动作（Action）。模型学习状态到动作的映射。
目标函数： 通过最小化生成的动作分布与专家动作分布之间的差异，Diffusion Policy 实现了动作生成策略的学习。这类似于监督学习中的回归任务。

Diffusion Policy 的核心是基于 扩散模型（Diffusion Model），其本质是通过逐步添加噪声并反向生成干净数据的方式建模复杂的分布。
具体体现：

建模动作分布： Diffusion Policy 不仅学习单一的动作映射，还通过扩散过程建模高维复杂动作分布，从而能够生成多样性和鲁棒性更强的策略。
从噪声到动作生成： 在推理阶段，Diffusion Policy 从噪声开始逐步采样，最终生成动作。这样的过程在传统监督学习中并不常见，但在生成模型中很常见。

不是强化学习： Diffusion Policy 并不直接依赖奖励信号（Reward）进行优化，而是依赖于专家示范数据的监督，因此它与强化学习（特别是无模型强化学习）的方法不同。
没有环境交互： 传统的强化学习需要通过与环境交互进行策略优化，而 Diffusion Policy 的训练过程主要是离线的，依赖于现有的专家数据。

尽管它借用了监督学习的框架，但由于采用了扩散模型进行复杂分布的生成，Diffusion Policy 不完全符合传统监督学习的定义。这种方法更接近以下几类方法的交集：

行为克隆 (Behavior Cloning): 使用监督学习直接模仿专家行为。
生成式建模 (Generative Modeling): 使用扩散模型生成动作分布。
离线强化学习 (Offline Reinforcement Learning): 在某些变体中，可能加入类似离线RL的思想，利用环境数据进一步优化策略。