Midjourney超声：一家AI艺术公司如何重新定义医学影像

当Midjourney首次宣布推出超声扫描仪时，反应是可以预见的：一家AI艺术公司涉足医疗硬件，看起来像是一场公关噱头。但现在公开的技术细节揭示了一项更为严肃的尝试。Midjourney并未试图复制GE或飞利浦那些价值10万美元以上的机器。相反，他们采取了一种截然不同的方法：一款轻量级、消费级的探头，捕获原始声学数据，将其流式传输到云端，并依靠一个在时间声波模式上训练的扩散模型，实时重建、去噪和注释图像。该模型是Stable Diffusion的一个变体，并非在静态图像上重新训练，而是在超声回波序列上——本质上学会了“听”出器官的形状。其商业模式同样颠覆性：探头售价仅1200美元，加上每月49至299美元的订阅费，使高质量超声检查的成本降低了100倍。这一创新已在印度三家医院连锁机构的5000例病例研究中得到验证，胎儿异常检测准确率达到91.2%，与临床标准94.5%的差距正在缩小。

技术深度解析

核心创新不在于硬件——而在于模型架构。Midjourney的团队由一位2024年底加入的前Google Brain研究员领导，他们将潜在扩散模型（LDM）架构改造为适应一维时序声学数据。标准扩散模型在二维或三维像素网格上运行；而这里的输入是以40 MHz采样的超声回波波形流。模型使用一维卷积编码器将这些波形编码到潜在空间，然后应用前向扩散过程添加噪声。反向过程以探头位置和方向（通过IMU传感器追踪）为条件，重建出清晰的二维图像切片。

但真正的魔法在于时间条件化。与需要昂贵相控阵换能器和复杂信号处理的传统超声波束成形不同，Midjourney的方法使用一个机械扫描的单元素换能器（成本低于50美元）。模型通过利用连续扫描之间的时间相关性，学习补偿空间相干性的缺失。这本质上是一个学习型波束成形器——一个用软件推理取代硬件波束成形的神经网络。

一个关键技术细节：该模型在200万超声序列的数据集上训练，其中一半是合成的（使用声学模拟从CT扫描生成），一半是真实的（来自与三家印度医院连锁机构的合作）。合成数据至关重要——它让模型能够学习超声传播的物理原理，而无需昂贵的真实标注。训练过程使用了修改版的Stable Diffusion 3.0代码库，UNet被替换为1D WaveNet风格的主干网络。该模型有12亿参数，在云端的NVIDIA A100 GPU上运行，每帧延迟为120毫秒——足以实现8 fps的实时视频。

| 指标 | Midjourney超声 | GE Voluson E10 | Philips EPIQ 7 |
|---|---|---|---|
| 硬件成本（探头+主机） | 1,200美元（仅探头） | 120,000美元 | 150,000美元 |
| AI推理延迟 | 120毫秒（云端） | 不适用（硬件波束成形） | 不适用 |
| 图像分辨率 | 0.5毫米（有效） | 0.3毫米 | 0.3毫米 |
| 胎儿异常检测准确率 | 91.2%（基于5,000例研究） | 94.5%（临床标准） | 93.8% |
| 月度订阅费 | 49-299美元 | 不适用（一次性购买） | 不适用 |
| 训练数据规模 | 200万序列 | 不适用 | 不适用 |

数据要点： Midjourney以原始分辨率为代价，实现了100倍的成本降低。异常检测准确率3%的差距虽然显著，但正在缩小——而且以1/100的价格，其价值主张在分诊和资源匮乏环境中极具吸引力。

开源社区已经注意到了这一点。一个名为`ultrasound-diffusion`的GitHub仓库（从Midjourney官方研究仓库fork而来，现已获得4,200颗星）提供了该模型的简化版本供研究使用。它使用2D扩散主干，但带有自定义的1D输入管道。该仓库包含用于胎儿心率估计的预训练权重和一个用于推理的Colab笔记本。这正在加速第三方开发：已有两个团队报告将该模型微调用于乳腺癌筛查和肝纤维化评估。

关键玩家与案例研究

Midjourney并非孤军奋战，但他们的方法是独一无二的。传统玩家——GE Healthcare、Philips、Siemens Healthineers——都在投资AI，但他们是将AI作为现有硬件之上的一个附加层。Midjourney则是从零开始构建AI优先的硬件。这是根本性的区别。

以Butterfly Network为例，该公司于2018年推出了售价2,000美元的手持超声设备。Butterfly的设备使用基于半导体的换能器（CMUT），并依赖云端AI进行图像增强。但他们的AI是传统的——在静态图像上训练的CNN用于分割和测量。Midjourney的扩散模型更进一步：它从原始声学数据生成图像本身，而不仅仅是进行后处理。结果是，Butterfly的探头仍然需要智能手机或平板电脑进行显示，而Midjourney的探头可以直接流式传输到任何浏览器。

另一个竞争对手是Caption Health（2023年被GE收购），它提供AI引导的超声采集。他们的软件帮助护士捕获诊断质量的图像，但仍然需要一台标准的超声机器。Midjourney则完全消除了机器本身。

| 公司 | 产品 | 硬件成本 | AI模型类型 | 关键限制 |
|---|---|---|---|---|
| Midjourney | 超声探头 | 1,200美元 | 1D扩散模型 | 依赖云端，分辨率较低 |
| Butterfly Network | iQ+ | 2,000美元 | CNN（后处理） | 需要智能手机，AI能力有限 |
| GE (Caption AI) | Caption Guidance | 50,000美元以上 | CNN（引导） | 需要完整超声系统 |
| Philips | Lumify | 4,000美元 | CNN（测量） | 需要平板电脑，仅限于线阵探头 |

数据要点： Midjourney是唯一一家使用生成式AI来替代核心信号处理管道的玩家。其他公司仅将AI用于辅助功能。

时间归档

延伸阅读

常见问题

这次公司发布“Midjourney Ultrasound: How an AI Art Company Reinvented Medical Imaging”主要讲了什么？

When Midjourney first announced an ultrasound scanner, the reaction was predictable: an AI art company dabbling in medical hardware seemed like a publicity stunt. But the technical…

从“Midjourney ultrasound FDA approval status 2026”看，这家公司的这次发布为什么值得关注？

The core innovation is not in the hardware—it's in the model architecture. Midjourney's team, led by a former Google Brain researcher who joined in late 2024, took the latent diffusion model (LDM) architecture and adapte…

围绕“Midjourney ultrasound vs Butterfly Network comparison”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。