技术深度解析
核心创新不在于硬件——而在于模型架构。Midjourney的团队由一位2024年底加入的前Google Brain研究员领导,他们将潜在扩散模型(LDM)架构改造为适应一维时序声学数据。标准扩散模型在二维或三维像素网格上运行;而这里的输入是以40 MHz采样的超声回波波形流。模型使用一维卷积编码器将这些波形编码到潜在空间,然后应用前向扩散过程添加噪声。反向过程以探头位置和方向(通过IMU传感器追踪)为条件,重建出清晰的二维图像切片。
但真正的魔法在于时间条件化。与需要昂贵相控阵换能器和复杂信号处理的传统超声波束成形不同,Midjourney的方法使用一个机械扫描的单元素换能器(成本低于50美元)。模型通过利用连续扫描之间的时间相关性,学习补偿空间相干性的缺失。这本质上是一个学习型波束成形器——一个用软件推理取代硬件波束成形的神经网络。
一个关键技术细节:该模型在200万超声序列的数据集上训练,其中一半是合成的(使用声学模拟从CT扫描生成),一半是真实的(来自与三家印度医院连锁机构的合作)。合成数据至关重要——它让模型能够学习超声传播的物理原理,而无需昂贵的真实标注。训练过程使用了修改版的Stable Diffusion 3.0代码库,UNet被替换为1D WaveNet风格的主干网络。该模型有12亿参数,在云端的NVIDIA A100 GPU上运行,每帧延迟为120毫秒——足以实现8 fps的实时视频。
| 指标 | Midjourney超声 | GE Voluson E10 | Philips EPIQ 7 |
|---|---|---|---|
| 硬件成本(探头+主机) | 1,200美元(仅探头) | 120,000美元 | 150,000美元 |
| AI推理延迟 | 120毫秒(云端) | 不适用(硬件波束成形) | 不适用 |
| 图像分辨率 | 0.5毫米(有效) | 0.3毫米 | 0.3毫米 |
| 胎儿异常检测准确率 | 91.2%(基于5,000例研究) | 94.5%(临床标准) | 93.8% |
| 月度订阅费 | 49-299美元 | 不适用(一次性购买) | 不适用 |
| 训练数据规模 | 200万序列 | 不适用 | 不适用 |
数据要点: Midjourney以原始分辨率为代价,实现了100倍的成本降低。异常检测准确率3%的差距虽然显著,但正在缩小——而且以1/100的价格,其价值主张在分诊和资源匮乏环境中极具吸引力。
开源社区已经注意到了这一点。一个名为`ultrasound-diffusion`的GitHub仓库(从Midjourney官方研究仓库fork而来,现已获得4,200颗星)提供了该模型的简化版本供研究使用。它使用2D扩散主干,但带有自定义的1D输入管道。该仓库包含用于胎儿心率估计的预训练权重和一个用于推理的Colab笔记本。这正在加速第三方开发:已有两个团队报告将该模型微调用于乳腺癌筛查和肝纤维化评估。
关键玩家与案例研究
Midjourney并非孤军奋战,但他们的方法是独一无二的。传统玩家——GE Healthcare、Philips、Siemens Healthineers——都在投资AI,但他们是将AI作为现有硬件之上的一个附加层。Midjourney则是从零开始构建AI优先的硬件。这是根本性的区别。
以Butterfly Network为例,该公司于2018年推出了售价2,000美元的手持超声设备。Butterfly的设备使用基于半导体的换能器(CMUT),并依赖云端AI进行图像增强。但他们的AI是传统的——在静态图像上训练的CNN用于分割和测量。Midjourney的扩散模型更进一步:它从原始声学数据生成图像本身,而不仅仅是进行后处理。结果是,Butterfly的探头仍然需要智能手机或平板电脑进行显示,而Midjourney的探头可以直接流式传输到任何浏览器。
另一个竞争对手是Caption Health(2023年被GE收购),它提供AI引导的超声采集。他们的软件帮助护士捕获诊断质量的图像,但仍然需要一台标准的超声机器。Midjourney则完全消除了机器本身。
| 公司 | 产品 | 硬件成本 | AI模型类型 | 关键限制 |
|---|---|---|---|---|
| Midjourney | 超声探头 | 1,200美元 | 1D扩散模型 | 依赖云端,分辨率较低 |
| Butterfly Network | iQ+ | 2,000美元 | CNN(后处理) | 需要智能手机,AI能力有限 |
| GE (Caption AI) | Caption Guidance | 50,000美元以上 | CNN(引导) | 需要完整超声系统 |
| Philips | Lumify | 4,000美元 | CNN(测量) | 需要平板电脑,仅限于线阵探头 |
数据要点: Midjourney是唯一一家使用生成式AI来替代核心信号处理管道的玩家。其他公司仅将AI用于辅助功能。