扩散策略：生成式AI如何重塑机器人控制与行动规划

Diffusion Policy框架代表了机器人学习领域的范式转变，它超越了传统的确定性或变分策略表示方法。该方法的核心理念是将机器人行动序列视为一个去噪问题：从纯噪声开始，扩散模型根据视觉观察条件，迭代式地精炼出一系列电机指令轨迹。这一架构在RSS 2023的一篇开创性论文中详细阐述，直接解决了模仿学习中的多模态问题——即单一观察（例如看到桌上的杯子）可能对应多种有效行动（从顶部抓握、侧面抓握或使用工具抓握）。

与采用单峰高斯分布的行为克隆方法不同——后者会对可能的行动取平均，导致无效的“均值寻求”行为——Diffusion Policy通过其生成式特性，能够捕捉并呈现行动分布中的多种可能性。该框架将条件扩散过程应用于行动序列生成，其中目标是未来行动序列A，条件是当前及过去的视觉观察O_t。模型经过训练，能够逆转一个固定的前向加噪过程，该过程会将清晰的动作序列逐渐破坏为高斯噪声。

在架构上，多数实现采用U-Net风格的时间卷积网络作为去噪函数。该网络接收含噪的行动轨迹和一系列编码后的图像特征（通常来自如ResNet等预训练视觉主干网络），并预测需要移除的噪声。一个关键的设计选择是使用“行动分块”技术：策略在每次推理调用时输出一个包含T个行动的视野范围，而非每步预测单个行动，其中只有前k个行动被执行，然后重新规划。这提供了固有的时间平滑性和前瞻性，对于接触丰富的任务至关重要。

训练目标采用简化的去噪分数匹配损失函数。来自原始论文及后续研究的基准测试结果显示了其明显优势。在Push-T基准测试（一项需要将T形块精确推入受限目标的挑战性任务）中，Diffusion Policy取得了95.0%的成功率，大幅超越了IBC（0%）和BC-RNN（81.7%）。开源仓库`real-stanford/diffusion_policy`提供了PyTorch的全面实现，并附有清晰的训练和部署示例，已成为一个基础代码库，催生了如用于6自由度姿态任务的`diffusion_policy_6d`等衍生项目以及与Isaac Gym等仿真平台的集成。

技术深度解析

Diffusion Policy的技术创新在于其对机器人行动规划问题的优雅重构。该框架对一个条件扩散过程进行建模，其中目标是未来行动序列 \(A = [a_t, a_{t+1}, ..., a_{t+H-1}]\)，条件是当前及过去的视觉观察 \(O_t\)。模型被训练用于逆转一个固定的前向加噪过程，该过程会将一个干净的行动序列逐渐破坏为高斯噪声。

在架构层面，大多数实现使用U-Net风格的时间卷积网络作为去噪函数 \(\epsilon_\theta\)。该网络接收一个含噪的行动轨迹和一叠编码后的图像特征（通常来自如ResNet等预训练视觉主干网络），并预测需要被移除的噪声。一个关键的设计选择是使用行动分块技术：策略在每次推理调用时输出一个包含 \(T\) 个行动的视野范围，而非每步预测单个行动，其中只有前 \(k\) 个行动被执行，然后重新规划。这提供了固有的时间平滑性和前瞻性，对于接触丰富的任务至关重要。

训练目标是简化的去噪分数匹配损失：
\[L(\theta) = \mathbb{E}_{k, \epsilon, A^0, O}[\|\epsilon - \epsilon_\theta(\sqrt{\bar{\alpha}_k}A^0 + \sqrt{1-\bar{\alpha}_k}\epsilon, k, O)\|^2]\]
其中 \(k\) 是随机扩散步数，\(\epsilon\) 是高斯噪声，\(A^0\) 是来自演示数据的真实行动序列，\(O\) 是观察。

原始论文及后续研究的基准测试结果显示了其明确的优越性。在Push-T基准测试——一项需要将T形块精确推入受限目标的挑战性任务——中，Diffusion Policy取得了95.0%的成功率，显著超越了IBC（0%）和BC-RNN（81.7%）。

| 策略方法 | Push-T 成功率 | 多模态能力 | 推理延迟 (ms) |
|---|---|---|---|
| Diffusion Policy | 95.0% | 高 | ~50-100 (CPU) |
| Implicit Behavior Cloning (IBC) | 0.0% | 中等 | ~20 |
| BC-RNN (确定性) | 81.7% | 低 | ~5 |
| Behavior Transformer (BET) | 90.0% | 高 | ~30 |

数据要点： 上表揭示了Diffusion Policy在复杂任务上的主导性能，在其他方法失败的地方取得了近乎完美的成功率。其代价是计算成本，推理延迟比简单模型高出一个数量级，这对实时控制构成了挑战。

开源仓库 `real-stanford/diffusion_policy` 提供了PyTorch的全面实现，并附有清晰的训练和部署示例。它已成为一个基础代码库，催生了如用于6自由度姿态任务的 `diffusion_policy_6d` 等衍生项目以及与Isaac Gym等仿真平台的集成。

关键参与者与案例研究

Diffusion Policy的发展由斯坦福大学机器人学习与智能实验室的研究人员领衔，包括Zhixuan Liang、Yao Lu和资深作者Jeannette Bohg教授。他们的工作建立在如OpenAI（DDPM、DDIM）和加州大学伯克利分校（decision transformer）等实验室的基础生成建模研究之上，但将其具体应用于具身AI领域。

该框架并非孤立运作。它处于下一代机器人策略表示的竞争格局之中：
- 用于行动的Transformers： 谷歌机器人团队的RT-1和RT-2等方法使用在大规模、多样化机器人数据集上训练的序列到序列Transformer。它们在跨任务和环境的泛化方面表现出色，但在处理Diffusion Policy擅长的精确、接触敏感的运动时可能遇到困难。
- 隐式模型： Implicit Behavior Cloning (IBC) 将策略建模为基于能量的模型，在推理时解决优化问题。虽然理论上优雅且具备多模态能力，但它存在收敛问题和高推理延迟的缺点。
- 流匹配： Motion Flow Matching 等新兴方法提供了一种替代的连续时间生成模型，其采样速度可能比扩散模型更快，代表了速度-精度权衡的下一个前沿。

一个引人注目的案例研究是丰田研究院将其用于灵巧操作研究。TRI的研究人员已将Diffusion Policy扩展到双手任务，展示了机器人可以通过为两只手臂生成连贯、同步的行动序列来折叠毛巾或操纵可变形物体。策略的生成式特性使其能够发现训练演示中未明确存在的、新颖的、类人策略。

另一个重要参与者是NVIDIA，该公司已将基于扩散的策略学习整合到其Isaac Lab和Omniverse平台中。他们的工作重点是通过TensorRT优化和自定义CUDA内核来加速去噪过程，旨在将推理时间降至10毫秒以下，以实现实时控制。

| 组织 | 主要贡献/应用方向 | 关键进展 |
|---|---|---|
| 斯坦福大学 Robot Learning & Intelligence Lab | 提出并开发核心Diffusion Policy框架 | 在Push-T等基准测试上取得突破性成功率，开源基础代码库 |
| 丰田研究院 | 应用于双手灵巧操作、可变形物体操纵 | 扩展至双手任务，生成同步行动序列，发现新策略 |
| NVIDIA | 集成至Isaac Lab/Omniverse，优化推理速度 | 通过TensorRT和CUDA内核优化，目标实现亚10毫秒推理 |
| 谷歌 Robotics | 并行开发RT-1/RT-2等Transformer方法 | 提供大规模、多任务泛化的替代路径 |

未来展望与挑战

尽管Diffusion Policy取得了显著成功，但其走向广泛应用仍面临几个关键挑战。首先是计算效率。当前50-100毫秒的CPU推理延迟对于需要毫秒级响应的动态实时控制（如高速抓取或腿部机器人平衡）来说仍然过高。NVIDIA等公司在硬件加速方面的努力至关重要。

其次是数据效率与泛化。与许多深度学习方法一样，Diffusion Policy需要大量演示数据。如何结合强化学习、模拟到真实的迁移以及少样本学习，以降低数据需求并提高对未见场景的泛化能力，是当前研究热点。

第三是安全性与可解释性。生成式模型可能产生不合理或危险的行动序列。如何为这类策略引入安全约束、不确定性量化以及某种程度的可解释性，是部署到物理世界机器人中的先决条件。

展望未来，Diffusion Policy很可能与大型语言模型和视觉-语言模型进一步融合。想象一个场景：机器人通过扩散模型生成低层运动轨迹，同时由LLM或VLM提供高层任务分解和语义指导。这种分层架构可能结合了两种范式的优势。

此外，世界模型的集成是另一个有前景的方向。将扩散策略与学习的环境动力学模型相结合，可以进行更长时间的规划，并在行动前在“想象”中模拟结果，从而提升决策质量。

总之，Diffusion Policy标志着机器人策略学习从确定性、单模态范式向生成式、概率性、多模态范式的深刻转变。它解决了模仿学习中的一个核心难题，并在复杂操作任务上展示了卓越性能。尽管在速度、数据效率和安全性方面仍需突破，但其作为机器人AI核心组件的潜力已清晰可见，正吸引着学术界和工业界的顶级团队投入研发，共同塑造下一代机器人的“大脑”。

常见问题

GitHub 热点“Diffusion Policy: How Generative AI is Revolutionizing Robot Control and Action Planning”主要讲了什么？

The Diffusion Policy framework represents a paradigm shift in robot learning, moving beyond traditional deterministic or variational approaches to policy representation. At its cor…

这个 GitHub 项目在“How to train Diffusion Policy on a custom robot dataset”上为什么会引发关注？

The technical innovation of Diffusion Policy lies in its elegant reformulation of the robot action planning problem. The framework models a conditional diffusion process where the target is a sequence of future actions \…

从“Diffusion Policy vs Behavior Transformer performance comparison”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 3937，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。