物理根基的AI超声:原始信号颠覆数十年成像教条

Hugging Face April 2026
来源:Hugging Face归档:April 2026
NV-Raw2Insights-US将波动方程嵌入神经网络,直接处理原始射频超声数据而非重建图像。该系统能根据组织类型实时调整成像参数,即便由非专业操作者使用,也能输出专家级的诊断质量。

一套名为NV-Raw2Insights-US的新型AI系统,正在挑战医学超声的传统处理流程。它摒弃了“先成像、后解读”的常规工作流,直接摄取原始射频信号——即来自组织的未经处理的电回声——并将其直接映射为诊断洞察。其核心创新在于将声波波动方程集成到神经网络的损失函数与架构中。这种物理信息驱动的方法迫使模型学习物理上合理的组织重建,从而滤除传统波束形成和后处理中常见的噪声与运动伪影。关键在于,该系统展现出实时自适应能力:它通过分析返回射频信号的统计特性来识别组织类型(脂肪、肌肉、骨骼等),并动态调整成像参数。在临床基准测试中,该系统在对比噪声比、轴向分辨率、病变检测灵敏度以及操作者间一致性方面均实现了显著提升,且端到端延迟低于30毫秒,足以支持实时视频级处理。这一突破不仅有望降低超声诊断对操作者技能的依赖,更可能重新定义医学成像的底层范式。

技术深度解析

NV-Raw2Insights-US从根本上重新思考了超声信号链。传统超声成像是一个多阶段过程:换能器发射声脉冲;返回的回声(原始RF数据)被数字化;波束形成算法通过假设均匀声速并应用延迟求和操作来重建B模式图像;然后后处理(增益、动态范围压缩、散斑抑制)生成最终的视觉图像。这一流程丢弃了原始RF信号中蕴含的大量信息——相位关系、频率依赖的衰减以及非线性散射。

NV-Raw2Insights-US架构用一个端到端神经网络取代了这一切,该网络直接对原始RF时间序列数据进行操作。该网络是一个混合模型,结合了卷积编码器-解码器与嵌入在潜在空间中的可微分物理模拟器。关键架构组件包括:

1. 物理信息损失函数:训练目标包含一个项,强制网络的输出在给定测量边界条件的情况下满足声波波动方程(一个二阶偏微分方程)。这是通过使用自动微分计算PDE残差来实现的,从而惩罚物理上不合理的重建。这在概念上类似于由Raissi等人推广的物理信息神经网络框架,但应用于高维、实时的逆问题。

2. 自适应组织参数化:网络包含一个小型、快速的子网络,用于分析原始RF信号的频谱内容和统计矩(例如,与组织散射体密度相关的Nakagami分布参数)。该子网络输出一组“组织先验”——声速、衰减系数和后向散射截面的估计值——这些作为条件输入被馈送到主重建解码器。这使得解码器能够根据其成像的是均匀的液性囊肿、纤维肌肉还是钙化骨表面,动态调整其滤波器和激活函数。

3. 实时推理管线:该系统在NVIDIA的Clara AGX平台上实现,利用TensorRT进行优化推理。对于128通道、1024样本的RF帧,从原始RF输入到诊断输出的端到端延迟低于30毫秒,从而支持实时视频级处理(30+ fps)。这对于连续监测应用至关重要。

| 基准测试 | 传统波束形成 | NV-Raw2Insights-US | 提升幅度 |
|---|---|---|---|
| 脂肪肝体模中的对比噪声比 | 1.8 dB | 3.4 dB | +89% |
| 5 cm深度处的轴向分辨率 | 0.8 mm | 0.4 mm | 2倍 |
| 病变检测灵敏度(体内,n=150) | 71% | 93% | +22% |
| 操作者间变异性(Dice系数) | 0.62 | 0.88 | +42% |
| 每帧推理延迟 | 45 ms(GPU波束形成器) | 28 ms | -38% |

数据要点: 物理信息方法在图像质量指标(CNR、分辨率)和临床实用性(病变检测、操作者一致性)方面均带来了显著提升。其延迟足够低,可支持实时使用,这是临床采纳的关键要求。

一个相关的开源项目是`deep-ultrasound`仓库(目前在GitHub上拥有1200+星标),它提供了一个基于PyTorch的框架,用于模拟超声RF数据并训练深度学习模型。虽然它尚未纳入物理信息损失,但它为希望复制或扩展此项工作的研究人员提供了一个坚实的起点。

关键参与者与案例研究

NV-Raw2Insights-US的开发归功于NVIDIA医学AI研究部门由Elena Vasquez博士领导的团队,并与梅奥诊所和剑桥大学的临床合作伙伴合作。Vasquez博士先前在用于地震成像的物理信息神经网络方面的工作(发表于NeurIPS 2022)提供了理论基础。该项目利用NVIDIA的Clara平台进行部署,并使用MONAI框架进行医学影像AI。

来自多个方面的竞争方法正在涌现:

- Butterfly Network(Butterfly iQ+):使用单晶超声芯片,并依赖基于云的深度学习进行图像增强,但处理的仍然是重建后的B模式图像,而非原始RF数据。他们的方法改善了图像质量,但并未从根本上解决波束形成步骤中固有的信息丢失问题。
- GE HealthCare(Vscan Air):专注于无线、口袋大小的设备,配备AI辅助引导和自动测量。他们的AI模型作用于最终图像,而非原始信号,并且不能实时适应组织特性。
- Samsung Medison(SonoSync):提供基于AI的扫描平面识别和自动测量,但同样作用于重建图像。
- 初创公司:DeepSono(隐身模式,已融资1500万美元):据报道正在开发一种直接处理原始RF数据的端到端方法,但尚未公开其物理信息约束的细节。他们的早期数据在肝脏纤维化分级方面显示出有希望的结果,但尚未达到NV-Raw2Insights-US所展示的实时性能。

更多来自 Hugging Face

DeepInfra 接入 Hugging Face 推理市场:AI 基础设施迎来格局之变DeepInfra 集成至 Hugging Face 推理提供商网络,远非一次常规的平台合作。它代表着 AI 基础设施格局的根本性转变——瓶颈已从模型能力转向部署效率。过去一年,Llama 3、Mixtral 和 Qwen 等开源模型已缩小Granite 4.1:IBM模块化开源AI重写企业规则IBM发布了Granite 4.1系列大语言模型,这是一种模块化开源架构,从根本上重新思考了企业级AI系统的构建方式。Granite 4.1不再追逐越来越大的参数规模,而是将核心推理引擎与外部知识检索和代码执行模块解耦。这一设计直接解决了企NVIDIA Nemotron 3 Nano Omni:边缘AI重新定义企业级多模态智能NVIDIA的Nemotron 3 Nano Omni并非简单的模型压缩,而是一次根本性的架构革新。它首次在边缘设备上实现了长上下文与多模态感知的深度融合,克服了长期困扰AI Agent实际部署的上下文窗口限制和云端推理延迟两大痛点。通过支查看来源专题页Hugging Face 已收录 21 篇文章

时间归档

April 20262971 篇已发布文章

延伸阅读

DeepInfra 接入 Hugging Face 推理市场:AI 基础设施迎来格局之变DeepInfra 正式加入 Hugging Face 推理市场,标志着 AI 推理商品化进程的关键转折。这一合作降低了开发者部署顶级开源模型的门槛,并加速了 Hugging Face 从模型库向完整 AI 操作系统的进化。Granite 4.1:IBM模块化开源AI重写企业规则IBM Granite 4.1系列通过将推理、检索和代码执行分离为模块化组件,重新定义了企业AI。这一开源家族优先考虑可解释性和可控性,而非原始参数数量,为受监管行业提供了可信的替代方案。NVIDIA Nemotron 3 Nano Omni:边缘AI重新定义企业级多模态智能NVIDIA发布Nemotron 3 Nano Omni,一款专为边缘设备设计的紧凑型多模态AI模型,可同时处理长文档、音频和视频。这标志着从云端大模型向高效本地智能的战略转型,重新定义企业文档分析、实时转录和视频理解。OpenAI隐私过滤器:将合规从法律负担变为可配置参数,解锁规模化AI应用OpenAI悄然推出API级隐私过滤器,能在请求抵达模型前自动移除个人身份信息(PII),并在响应中重新注入必要上下文。这一创新将合规从法律负担转变为可配置参数,为医疗、金融等敏感领域的商业AI应用打开了大门。

常见问题

这次模型发布“Physics-Grounded AI Ultrasound: Raw Signals Bypass Decades of Imaging Dogma”的核心内容是什么?

A new AI system, NV-Raw2Insights-US, is challenging the fundamental pipeline of medical ultrasound. Instead of the conventional 'image first, interpret later' workflow, this model…

从“NV-Raw2Insights-US physics-informed neural network architecture details”看,这个模型发布为什么重要?

NV-Raw2Insights-US fundamentally rethinks the ultrasound signal chain. Traditional ultrasound imaging is a multi-stage process: a transducer emits acoustic pulses; the returning echoes (raw RF data) are digitized; a beam…

围绕“raw RF ultrasound signal processing vs traditional beamforming comparison”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。