扩散模型让手术机器人“看穿”组织：从感知到预测的范式革命

由香港中文大学研究人员开发的EndoDDC，直击微创手术中最顽固的瓶颈之一：体内深度感知。内窥镜摄像头视野狭窄、常被遮挡且光照不均，而软组织持续变形，使得传统的立体视觉或LiDAR深度感知技术不可靠。该团队的核心洞见是将深度补全视为一个条件生成问题。EndoDDC不再依赖手工设计的特征，而是采用扩散模型，将来自现有传感器或运动恢复结构的稀疏深度点，通过迭代去噪，生成稠密且几何一致的深度图。该模型隐式学习了手术场景的统计先验：典型器官形状、组织曲率等。

技术深度解析

EndoDDC的架构是一个专为内窥镜深度补全定制的条件扩散模型。其核心流程如下：将稀疏深度图（例如来自飞行时间传感器或单目SLAM）与RGB图像拼接，作为条件输入到去噪U-Net中。训练时，模型学习逆转一个固定的前向扩散过程——该过程逐步向真实稠密深度添加高斯噪声。推理时，模型从纯噪声开始，在稀疏输入和RGB条件的引导下，通过50-100步迭代优化深度图。

一个关键设计选择是在标准L1深度损失之外，额外使用了几何一致性损失和时间平滑性损失。几何损失强制预测深度与从大规模手术场景数据集中学习到的已知表面法线和曲率先验对齐。时间损失则惩罚连续帧之间的抖动，这对于稳定的机器人控制至关重要。

该模型在SCARED数据集（Surgical Camera, Robot, and Endoscopic Dataset）以及一个从猪模型采集的专有数据集上进行了训练。SCARED包含35个序列，带有来自结构光的真实深度，覆盖了多种组织类型和运动模式。EndoDDC在SCARED基准测试上实现了4.2毫米的均方根误差（RMSE），而此前的最先进方法（一种带有空间金字塔池化的卷积神经网络）的RMSE为8.7毫米。

| 模型 | RMSE (mm) | δ1.05 (%) | 推理时间 (ms) | 参数量 (M) |
|---|---|---|---|---|
| EndoDDC (Ours) | 4.2 | 89.3 | 120 | 45 |
| SOTA CNN (SPP-Net) | 8.7 | 72.1 | 35 | 28 |
| Sparse-to-Dense (Laina) | 10.1 | 65.4 | 40 | 32 |
| Monodepth2 (Godard) | 12.5 | 58.2 | 25 | 14 |

数据要点： 与先前方法相比，EndoDDC将RMSE降低了一半以上，但代价是推理速度慢了3-4倍（120毫秒 vs. 25-40毫秒）。对于需要30 FPS（每帧33毫秒）的实时机器人控制而言，这是一个限制。作者指出，使用蒸馏后的学生模型或将扩散步数减少到10-20步，可以将推理时间降至30毫秒以下，而准确率仅下降5-10%。

一个值得注意的开源资源是EndoDepth代码库（GitHub: endodepth/endodepth，约1.2k星标），它提供了一个用于内窥镜的单目深度估计基线流程。EndoDDC在此基础上构建，并增加了扩散框架。相关代码预计将在ICRA 2026论文发表时发布。

要点： 扩散方法以牺牲实时性能为代价，换取了显著的精度提升。对于术前规划或离线分析，这是可以接受的；但对于实时控制，则需要蒸馏或步数缩减。

关键参与者与案例研究

主要研究团队来自香港中文大学（CUHK），由著名机器人外科医生Philip W. Y. Chiu教授和顶尖医学AI研究员窦琪博士领导。他们之前的工作包括用于数据增强的SurgicalGAN和用于同步定位与建图的EndoSLAM。EndoDDC延续了他们对用于手术感知的生成模型的关注。

在产业界，主要利益相关方包括：

- Intuitive Surgical（da Vinci平台）：拥有超过8000套安装系统的市场主导者。其当前的深度感知依赖立体摄像头和结构光，但遮挡问题依然存在。像EndoDDC这样的软件升级可以集成到其Ion和da Vinci SP平台中。
- Medtronic（Hugo RAS）：专注于模块化机器人的新进者。他们在基于AI的导航上投入巨资，可以采用EndoDDC来与Intuitive形成差异化。
- Johnson & Johnson（Verb Surgical）：与Google的合资企业，强调数字手术和数据驱动工具。其Verb平台使用机器学习进行器械追踪；深度补全将增强其自主性。
- CMR Surgical（Versius）：一家英国竞争对手，专注于可负担性。纯软件解决方案符合其成本敏感的战略。

| 公司 | 平台 | 当前深度方法 | 自主等级 | EndoDDC兼容性 |
|---|---|---|---|---|
| Intuitive Surgical | da Vinci Xi | 立体视觉 + 结构光 | 远程操作 (L0) | 高（软件更新） |
| Medtronic | Hugo RAS | 单目 + SLAM | 远程操作 (L0) | 高 |
| J&J / Verb Surgical | Verb | 立体视觉 + 机器学习 | 辅助 (L1) | 高 |
| CMR Surgical | Versius | 单目 + SLAM | 远程操作 (L0) | 高 |

数据要点： 目前所有主要手术机器人平台都处于自主等级0（远程操作）。EndoDDC可以通过为碰撞避免和组织追踪提供可靠的深度信息，从而支持等级1（任务级辅助）和等级2（条件自主）。

要点： 率先集成EndoDDC的任何制造商都将获得显著的竞争优势——更好的深度感知直接意味着更少的意外组织损伤和更短的手术时间。

时间归档

延伸阅读

常见问题

这篇关于“How a Diffusion Model Lets Surgical Robots See Through Tissue to Navigate Safely”的文章讲了什么？

EndoDDC, developed by researchers at The Chinese University of Hong Kong, addresses one of the most stubborn bottlenecks in minimally invasive surgery: depth perception inside the…

从“EndoDDC vs traditional stereo depth for endoscopy comparison”看，这件事为什么值得关注？

EndoDDC's architecture is a conditional diffusion model tailored for endoscopic depth completion. The core pipeline works as follows: a sparse depth map (e.g., from a time-of-flight sensor or monocular SLAM) is concatena…

如果想继续追踪“ICRA 2026 surgical robotics papers list”，应该重点看什么？

可以继续查看本文整理的原文链接、相关文章和 AI 分析部分，快速了解事件背景、影响与后续进展。