Midjourney超声:一家AI艺术公司如何重新定义医学影像

Hacker News June 2026
来源:Hacker News归档:June 2026
Midjourney的超声扫描仪绝非噱头。通过将扩散模型重新训练于时序声波数据,这款设备用消费级硬件实现了实时胎儿成像。这标志着医学AI从硬件中心向智能中心诊断的范式转变。

当Midjourney首次宣布推出超声扫描仪时,反应是可以预见的:一家AI艺术公司涉足医疗硬件,看起来像是一场公关噱头。但现在公开的技术细节揭示了一项更为严肃的尝试。Midjourney并未试图复制GE或飞利浦那些价值10万美元以上的机器。相反,他们采取了一种截然不同的方法:一款轻量级、消费级的探头,捕获原始声学数据,将其流式传输到云端,并依靠一个在时间声波模式上训练的扩散模型,实时重建、去噪和注释图像。该模型是Stable Diffusion的一个变体,并非在静态图像上重新训练,而是在超声回波序列上——本质上学会了“听”出器官的形状。其商业模式同样颠覆性:探头售价仅1200美元,加上每月49至299美元的订阅费,使高质量超声检查的成本降低了100倍。这一创新已在印度三家医院连锁机构的5000例病例研究中得到验证,胎儿异常检测准确率达到91.2%,与临床标准94.5%的差距正在缩小。

技术深度解析

核心创新不在于硬件——而在于模型架构。Midjourney的团队由一位2024年底加入的前Google Brain研究员领导,他们将潜在扩散模型(LDM)架构改造为适应一维时序声学数据。标准扩散模型在二维或三维像素网格上运行;而这里的输入是以40 MHz采样的超声回波波形流。模型使用一维卷积编码器将这些波形编码到潜在空间,然后应用前向扩散过程添加噪声。反向过程以探头位置和方向(通过IMU传感器追踪)为条件,重建出清晰的二维图像切片。

但真正的魔法在于时间条件化。与需要昂贵相控阵换能器和复杂信号处理的传统超声波束成形不同,Midjourney的方法使用一个机械扫描的单元素换能器(成本低于50美元)。模型通过利用连续扫描之间的时间相关性,学习补偿空间相干性的缺失。这本质上是一个学习型波束成形器——一个用软件推理取代硬件波束成形的神经网络。

一个关键技术细节:该模型在200万超声序列的数据集上训练,其中一半是合成的(使用声学模拟从CT扫描生成),一半是真实的(来自与三家印度医院连锁机构的合作)。合成数据至关重要——它让模型能够学习超声传播的物理原理,而无需昂贵的真实标注。训练过程使用了修改版的Stable Diffusion 3.0代码库,UNet被替换为1D WaveNet风格的主干网络。该模型有12亿参数,在云端的NVIDIA A100 GPU上运行,每帧延迟为120毫秒——足以实现8 fps的实时视频。

| 指标 | Midjourney超声 | GE Voluson E10 | Philips EPIQ 7 |
|---|---|---|---|
| 硬件成本(探头+主机) | 1,200美元(仅探头) | 120,000美元 | 150,000美元 |
| AI推理延迟 | 120毫秒(云端) | 不适用(硬件波束成形) | 不适用 |
| 图像分辨率 | 0.5毫米(有效) | 0.3毫米 | 0.3毫米 |
| 胎儿异常检测准确率 | 91.2%(基于5,000例研究) | 94.5%(临床标准) | 93.8% |
| 月度订阅费 | 49-299美元 | 不适用(一次性购买) | 不适用 |
| 训练数据规模 | 200万序列 | 不适用 | 不适用 |

数据要点: Midjourney以原始分辨率为代价,实现了100倍的成本降低。异常检测准确率3%的差距虽然显著,但正在缩小——而且以1/100的价格,其价值主张在分诊和资源匮乏环境中极具吸引力。

开源社区已经注意到了这一点。一个名为`ultrasound-diffusion`的GitHub仓库(从Midjourney官方研究仓库fork而来,现已获得4,200颗星)提供了该模型的简化版本供研究使用。它使用2D扩散主干,但带有自定义的1D输入管道。该仓库包含用于胎儿心率估计的预训练权重和一个用于推理的Colab笔记本。这正在加速第三方开发:已有两个团队报告将该模型微调用于乳腺癌筛查和肝纤维化评估。

关键玩家与案例研究

Midjourney并非孤军奋战,但他们的方法是独一无二的。传统玩家——GE Healthcare、Philips、Siemens Healthineers——都在投资AI,但他们是将AI作为现有硬件之上的一个附加层。Midjourney则是从零开始构建AI优先的硬件。这是根本性的区别。

以Butterfly Network为例,该公司于2018年推出了售价2,000美元的手持超声设备。Butterfly的设备使用基于半导体的换能器(CMUT),并依赖云端AI进行图像增强。但他们的AI是传统的——在静态图像上训练的CNN用于分割和测量。Midjourney的扩散模型更进一步:它从原始声学数据生成图像本身,而不仅仅是进行后处理。结果是,Butterfly的探头仍然需要智能手机或平板电脑进行显示,而Midjourney的探头可以直接流式传输到任何浏览器。

另一个竞争对手是Caption Health(2023年被GE收购),它提供AI引导的超声采集。他们的软件帮助护士捕获诊断质量的图像,但仍然需要一台标准的超声机器。Midjourney则完全消除了机器本身。

| 公司 | 产品 | 硬件成本 | AI模型类型 | 关键限制 |
|---|---|---|---|---|
| Midjourney | 超声探头 | 1,200美元 | 1D扩散模型 | 依赖云端,分辨率较低 |
| Butterfly Network | iQ+ | 2,000美元 | CNN(后处理) | 需要智能手机,AI能力有限 |
| GE (Caption AI) | Caption Guidance | 50,000美元以上 | CNN(引导) | 需要完整超声系统 |
| Philips | Lumify | 4,000美元 | CNN(测量) | 需要平板电脑,仅限于线阵探头 |

数据要点: Midjourney是唯一一家使用生成式AI来替代核心信号处理管道的玩家。其他公司仅将AI用于辅助功能。

更多来自 Hacker News

Cloak:让AI代理“盲操”API密钥的开源安全工具AINews发现了一款全新的开源安全工具Cloak,它从根本上重构了AI代理处理API身份验证的方式。其核心创新是一个位于代理与外部服务之间的透明代理层。当代理需要调用API——比如向GitHub推送代码或在Slack上发消息——它会将请求聊天终结:AI如何从对话框走向无形智能过去两年,与大语言模型交互的默认界面一直是聊天窗口。这个“杀手级应用”将生成式AI带给了大众。但这段蜜月期正在终结。越来越多的用户和开发者开始表达“聊天疲劳”——他们厌倦了反复解释目标、纠正幻觉输出,以及费力阅读冗长且不聚焦的回复。这并非模LLM股票分析师全面自主化:每日股票分析重新定义市场研究开源项目Daily Stock Analysis代表了金融AI领域的范式转变。与早期仅能回答问题或总结新闻的聊天机器人不同,该系统构建了一个完整的自主代理:它摄取实时多市场数据,将LLM作为推理引擎来识别趋势和情绪变化,并输出结构化的每日报查看来源专题页Hacker News 已收录 5015 篇文章

时间归档

June 20262091 篇已发布文章

延伸阅读

Midjourney 闯入医学影像:AI 艺术工具如何重塑临床诊断以生成超现实风景和奇幻肖像闻名的 Midjourney,正悄然转向医学影像领域。我们的调查发现,其最新的潜在空间优化技术已能生成近乎临床精度的合成 X 光片、CT 切片和 3D 器官模型,为医学培训和手术规划开辟新前沿——但也引发了严肃的监医疗AI的盲区:RAG系统为何需要“患者画像”才能成功医疗RAG系统在临床中频频翻车——并非因为检索到错误事实,而是因为它们完全忽略了患者本身。AINews深度调查发现,缺失的“患者画像”层,正将精准知识变成危险且无关的建议。LLM隐形化:重塑科技格局的无声基础设施革命大型语言模型正悄然从炫目的聊天机器人,演变为现代软件与企业系统的无形支柱。AINews深度解析这场静默的基础设施变革,如何重新定义竞争格局、商业模式,以及AI落地的本质逻辑。AI医生通过临床推理测试:医疗决策进入新时代一款大型语言模型在严格的临床推理基准测试中达到了与人类医生相当的水平,标志着从知识记忆到真正诊断逻辑的根本性转变。这一突破重新定义了医学专业判断的边界。

常见问题

这次公司发布“Midjourney Ultrasound: How an AI Art Company Reinvented Medical Imaging”主要讲了什么?

When Midjourney first announced an ultrasound scanner, the reaction was predictable: an AI art company dabbling in medical hardware seemed like a publicity stunt. But the technical…

从“Midjourney ultrasound FDA approval status 2026”看,这家公司的这次发布为什么值得关注?

The core innovation is not in the hardware—it's in the model architecture. Midjourney's team, led by a former Google Brain researcher who joined in late 2024, took the latent diffusion model (LDM) architecture and adapte…

围绕“Midjourney ultrasound vs Butterfly Network comparison”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。