技术深度解析
传统扩散模型的运作原理借鉴了热力学:逐步用噪声破坏数据,直至其变为纯高斯噪声,然后学习逆转这一过程。逆向过程被建模为一系列微小的、学习到的去噪步骤。从数学上讲,这相当于使用欧拉法或龙格-库塔法等数值求解器来求解常微分方程(ODE)或随机微分方程(SDE)。每一步都需要对神经网络进行一次完整的前向传播,从而导致了众所周知的延迟瓶颈。
流映射由Flow Matching(Lipman等人,2022)和Rectified Flow(Liu等人,2022)等开创性工作提出,它重新定义了问题。流映射不学习路径上每一点的向量场(导数),而是学习整个路径本身——即流映射。可以将其理解为学习一个函数F(x₀, t),该函数在给定初始噪声x₀的情况下,直接输出系统在时间t的状态。这是ODE的解析解,绕过了迭代数值积分的需求。
核心机制:
关键洞察在于使用条件流匹配目标。模型被训练为预测噪声样本与数据样本之间的完整轨迹,并以时间步为条件。在训练过程中,模型会看到(噪声,数据)对,并学习一个向量场,该向量场在积分后能将噪声传输到数据。然而,突破在于模型可以被训练为直接输出最终状态,而不仅仅是方向。这是通过将模型参数化为直接预测干净数据点来实现的,在扩散模型的语境中,这被称为x₀预测或v预测,但此处应用于整个流。
一个特别优雅的实现见于开源仓库torchcfm(Conditional Flow Matching),它提供了一个轻量级框架用于实验这些想法。随着研究人员探索其效率,该仓库已获得显著关注(GitHub上超过1500颗星)。另一个关键仓库是Rectified Flow,它引入了一种“重流”过程来拉直学习到的轨迹,使其更适用于单步采样。
性能基准测试:
早期结果令人瞩目。虽然标准扩散模型(例如Stable Diffusion 3)需要28-50步才能实现高质量生成,但基于流的模型仅需1-2步即可达到可比或更优的FID(Fréchet Inception Distance)分数。
| 模型 | 采样步数 | FID (ImageNet 256x256) | 推理时间(相对值) |
|---|---|---|---|
| DDPM(标准扩散) | 1000 | 3.28 | 100x |
| DDIM(加速扩散) | 50 | 4.67 | 5x |
| Flow Matching (Rectified Flow) | 1 | 4.85 | 1x |
| Flow Matching (Rectified Flow) | 2 | 3.76 | 2x |
| Consistency Model(蒸馏) | 1 | 6.20 | 1x |
数据要点: 流映射实现了比标准扩散模型快50倍到100倍的加速,同时保持了具有竞争力的FID分数。2步流匹配在质量上甚至超越了50步的DDIM,表明积分方法不仅更快,而且可能更精确。
关键参与者与案例研究
流映射的商业化竞赛已经展开,多家主要参与者和初创公司正在调整其战略。
Stability AI 一直是直言不讳的支持者。其Stable Diffusion 3和Stable Video Diffusion模型均基于流匹配骨干网络。该公司声称,这种架构使得图像中的排版和复杂构图处理更出色,视频中的运动更连贯。其内部基准测试显示,与之前的基于扩散的模型相比,训练时间减少了30%,推理成本降低了50%。
OpenAI 已将基于流的原理整合到其Sora视频生成模型中。虽然确切架构未公开,但泄露的技术报告和研究人员访谈表明,Sora使用了一种流映射形式来生成长时长、时间上一致的视频。能够一次性看到整个视频轨迹,对于避免早期视频模型困扰的“闪烁”和“漂移”问题至关重要。
Google DeepMind 正在其Genie项目中探索将流映射用于世界模型,该项目旨在创建一个生成式交互环境。流映射的长时域稳定性对于在长时间跨度内模拟逼真的物理和智能体交互至关重要。
值得关注的初创公司:
| 公司 | 产品 | 方法 | 融资额 | 关键指标 |
|---|---|---|---|---|
| Pika Labs | Pika 2.0 | 基于流的视频生成 | 8000万美元 | 推理速度比v1快10倍 |
| Runway | Gen-3 Alpha | 混合扩散/流 | 2.37亿美元 | 12秒生成4秒1080p视频 |
| Luma AI | Dream Machine | 用于3D/视频的Rectified Flow | 4300万美元 | 单步3D网格生成 |
数据要点: 市场正在分化。现有巨头正在将流映射集成到其旗舰产品中,而初创公司则利用其效率优势来提供差异化的产品。