扩散模型让手术机器人“看穿”组织:从感知到预测的范式革命

May 2026
归档:May 2026
一款名为EndoDDC的扩散模型,让手术机器人能从稀疏的内窥镜视角中推断出完整的3D深度信息,无需改动硬件即可解决遮挡与组织变形难题。该成果已被ICRA 2026收录,标志着机器人感知从“感知”到“生成式预测”的范式转变。

由香港中文大学研究人员开发的EndoDDC,直击微创手术中最顽固的瓶颈之一:体内深度感知。内窥镜摄像头视野狭窄、常被遮挡且光照不均,而软组织持续变形,使得传统的立体视觉或LiDAR深度感知技术不可靠。该团队的核心洞见是将深度补全视为一个条件生成问题。EndoDDC不再依赖手工设计的特征,而是采用扩散模型,将来自现有传感器或运动恢复结构的稀疏深度点,通过迭代去噪,生成稠密且几何一致的深度图。该模型隐式学习了手术场景的统计先验:典型器官形状、组织曲率等。

技术深度解析

EndoDDC的架构是一个专为内窥镜深度补全定制的条件扩散模型。其核心流程如下:将稀疏深度图(例如来自飞行时间传感器或单目SLAM)与RGB图像拼接,作为条件输入到去噪U-Net中。训练时,模型学习逆转一个固定的前向扩散过程——该过程逐步向真实稠密深度添加高斯噪声。推理时,模型从纯噪声开始,在稀疏输入和RGB条件的引导下,通过50-100步迭代优化深度图。

一个关键设计选择是在标准L1深度损失之外,额外使用了几何一致性损失时间平滑性损失。几何损失强制预测深度与从大规模手术场景数据集中学习到的已知表面法线和曲率先验对齐。时间损失则惩罚连续帧之间的抖动,这对于稳定的机器人控制至关重要。

该模型在SCARED数据集(Surgical Camera, Robot, and Endoscopic Dataset)以及一个从猪模型采集的专有数据集上进行了训练。SCARED包含35个序列,带有来自结构光的真实深度,覆盖了多种组织类型和运动模式。EndoDDC在SCARED基准测试上实现了4.2毫米的均方根误差(RMSE),而此前的最先进方法(一种带有空间金字塔池化的卷积神经网络)的RMSE为8.7毫米。

| 模型 | RMSE (mm) | δ1.05 (%) | 推理时间 (ms) | 参数量 (M) |
|---|---|---|---|---|
| EndoDDC (Ours) | 4.2 | 89.3 | 120 | 45 |
| SOTA CNN (SPP-Net) | 8.7 | 72.1 | 35 | 28 |
| Sparse-to-Dense (Laina) | 10.1 | 65.4 | 40 | 32 |
| Monodepth2 (Godard) | 12.5 | 58.2 | 25 | 14 |

数据要点: 与先前方法相比,EndoDDC将RMSE降低了一半以上,但代价是推理速度慢了3-4倍(120毫秒 vs. 25-40毫秒)。对于需要30 FPS(每帧33毫秒)的实时机器人控制而言,这是一个限制。作者指出,使用蒸馏后的学生模型或将扩散步数减少到10-20步,可以将推理时间降至30毫秒以下,而准确率仅下降5-10%。

一个值得注意的开源资源是EndoDepth代码库(GitHub: endodepth/endodepth,约1.2k星标),它提供了一个用于内窥镜的单目深度估计基线流程。EndoDDC在此基础上构建,并增加了扩散框架。相关代码预计将在ICRA 2026论文发表时发布。

要点: 扩散方法以牺牲实时性能为代价,换取了显著的精度提升。对于术前规划或离线分析,这是可以接受的;但对于实时控制,则需要蒸馏或步数缩减。

关键参与者与案例研究

主要研究团队来自香港中文大学(CUHK),由著名机器人外科医生Philip W. Y. Chiu教授和顶尖医学AI研究员窦琪博士领导。他们之前的工作包括用于数据增强的SurgicalGAN和用于同步定位与建图的EndoSLAM。EndoDDC延续了他们对用于手术感知的生成模型的关注。

在产业界,主要利益相关方包括:

- Intuitive Surgical(da Vinci平台):拥有超过8000套安装系统的市场主导者。其当前的深度感知依赖立体摄像头和结构光,但遮挡问题依然存在。像EndoDDC这样的软件升级可以集成到其Ionda Vinci SP平台中。
- Medtronic(Hugo RAS):专注于模块化机器人的新进者。他们在基于AI的导航上投入巨资,可以采用EndoDDC来与Intuitive形成差异化。
- Johnson & Johnson(Verb Surgical):与Google的合资企业,强调数字手术和数据驱动工具。其Verb平台使用机器学习进行器械追踪;深度补全将增强其自主性。
- CMR Surgical(Versius):一家英国竞争对手,专注于可负担性。纯软件解决方案符合其成本敏感的战略。

| 公司 | 平台 | 当前深度方法 | 自主等级 | EndoDDC兼容性 |
|---|---|---|---|---|
| Intuitive Surgical | da Vinci Xi | 立体视觉 + 结构光 | 远程操作 (L0) | 高(软件更新) |
| Medtronic | Hugo RAS | 单目 + SLAM | 远程操作 (L0) | 高 |
| J&J / Verb Surgical | Verb | 立体视觉 + 机器学习 | 辅助 (L1) | 高 |
| CMR Surgical | Versius | 单目 + SLAM | 远程操作 (L0) | 高 |

数据要点: 目前所有主要手术机器人平台都处于自主等级0(远程操作)。EndoDDC可以通过为碰撞避免和组织追踪提供可靠的深度信息,从而支持等级1(任务级辅助)和等级2(条件自主)。

要点: 率先集成EndoDDC的任何制造商都将获得显著的竞争优势——更好的深度感知直接意味着更少的意外组织损伤和更短的手术时间。

时间归档

May 20263028 篇已发布文章

延伸阅读

FP3突破机器人2D视觉瓶颈:3D基础模型斩获ICRA 2026最佳论文奖由清华大学高阳团队开发的FP3,一个13亿参数的3D基础策略模型,已入围ICRA 2026最佳论文奖最终名单。它用直接点云观测取代传统2D图像输入,首次赋予机器人真正的几何深度感知能力,标志着具身智能领域的一次范式跃迁。ICRA 2026:灵巧手跨越鸿沟,从“能动”迈向“精通”ICRA 2026 见证了灵巧手的分水岭时刻:它们不再是升级版的工业夹爪,而是全面落地的具身智能终端。直驱力控、反向驱动性与多模态触觉融合成为标配,这些手如今能完成装配、折气球狗、发牌等复杂长周期任务,标志着行业焦点从“能否运动”转向“能否数据海绵理论:朱玉可的金字塔策略如何解锁人形机器人规模化在ICRA 2026上,UT Austin副教授朱玉可提出了一个“数据金字塔”框架,将互联网视频、合成数据和真实机器人数据视为互补层级,并以世界模型作为“数据海绵”吸收和统一它们。该方法通过SONIC项目10000小时训练里程碑验证,直接解ICRA 2026双料最佳论文奖:机器人学理论与硬件的划时代共振ICRA 2026在维也纳落下帷幕,三项重磅消息震动学界:罕见的双最佳论文奖、以388票高票当选的最佳硬件展品,以及东京大学全新人形机器人实验室的成立。AINews为您独家深度解析,这些事件如何共同勾勒出机器人学的未来图景。

常见问题

这篇关于“How a Diffusion Model Lets Surgical Robots See Through Tissue to Navigate Safely”的文章讲了什么?

EndoDDC, developed by researchers at The Chinese University of Hong Kong, addresses one of the most stubborn bottlenecks in minimally invasive surgery: depth perception inside the…

从“EndoDDC vs traditional stereo depth for endoscopy comparison”看,这件事为什么值得关注?

EndoDDC's architecture is a conditional diffusion model tailored for endoscopic depth completion. The core pipeline works as follows: a sparse depth map (e.g., from a time-of-flight sensor or monocular SLAM) is concatena…

如果想继续追踪“ICRA 2026 surgical robotics papers list”,应该重点看什么?

可以继续查看本文整理的原文链接、相关文章和 AI 分析部分,快速了解事件背景、影响与后续进展。