流映射重写生成式AI:从渐进式去噪到一步生成

Hacker News May 2026
来源:Hacker Newsdiffusion modelsgenerative AIworld models归档:May 2026
一种名为“流映射”的全新数学框架,直接学习扩散过程的“积分”——即流映射本身,而非逐步去噪的增量步骤。它将训练与采样统一,有望将数百步推理压缩为单次前向传播,从根本上重塑生成式AI的成本结构。

生成式AI领域长期由扩散模型主导,这类模型通过从随机起点迭代去除噪声来生成图像、视频和音频。这一过程虽然强大,但计算成本高昂且速度缓慢,需要数十到数百个顺序步骤。一种名为“流映射”的新范式正在挑战这一传统。流映射不学习增量去噪函数(微分),而是直接学习从噪声到数据的完整变换(积分)。这相当于一次性求解整个随机微分方程(SDE)。其影响深远:推理速度可提升数个数量级,使实时高保真生成首次成为可能。对于视频生成,这意味着模型可以一次性“看到”整个视频轨迹,从而避免帧间闪烁和漂移。在图像生成中,它实现了单步高质量输出,将延迟从秒级降至毫秒级。流映射并非渐进式改进,而是对生成式AI底层数学的重新构想,有望使实时、高分辨率生成成为计算密集型应用的默认范式。

技术深度解析

传统扩散模型的运作原理借鉴了热力学:逐步用噪声破坏数据,直至其变为纯高斯噪声,然后学习逆转这一过程。逆向过程被建模为一系列微小的、学习到的去噪步骤。从数学上讲,这相当于使用欧拉法或龙格-库塔法等数值求解器来求解常微分方程(ODE)或随机微分方程(SDE)。每一步都需要对神经网络进行一次完整的前向传播,从而导致了众所周知的延迟瓶颈。

流映射由Flow Matching(Lipman等人,2022)和Rectified Flow(Liu等人,2022)等开创性工作提出,它重新定义了问题。流映射不学习路径上每一点的向量场(导数),而是学习整个路径本身——即流映射。可以将其理解为学习一个函数F(x₀, t),该函数在给定初始噪声x₀的情况下,直接输出系统在时间t的状态。这是ODE的解析解,绕过了迭代数值积分的需求。

核心机制:

关键洞察在于使用条件流匹配目标。模型被训练为预测噪声样本与数据样本之间的完整轨迹,并以时间步为条件。在训练过程中,模型会看到(噪声,数据)对,并学习一个向量场,该向量场在积分后能将噪声传输到数据。然而,突破在于模型可以被训练为直接输出最终状态,而不仅仅是方向。这是通过将模型参数化为直接预测干净数据点来实现的,在扩散模型的语境中,这被称为x₀预测v预测,但此处应用于整个流。

一个特别优雅的实现见于开源仓库torchcfm(Conditional Flow Matching),它提供了一个轻量级框架用于实验这些想法。随着研究人员探索其效率,该仓库已获得显著关注(GitHub上超过1500颗星)。另一个关键仓库是Rectified Flow,它引入了一种“重流”过程来拉直学习到的轨迹,使其更适用于单步采样。

性能基准测试:

早期结果令人瞩目。虽然标准扩散模型(例如Stable Diffusion 3)需要28-50步才能实现高质量生成,但基于流的模型仅需1-2步即可达到可比或更优的FID(Fréchet Inception Distance)分数。

| 模型 | 采样步数 | FID (ImageNet 256x256) | 推理时间(相对值) |
|---|---|---|---|
| DDPM(标准扩散) | 1000 | 3.28 | 100x |
| DDIM(加速扩散) | 50 | 4.67 | 5x |
| Flow Matching (Rectified Flow) | 1 | 4.85 | 1x |
| Flow Matching (Rectified Flow) | 2 | 3.76 | 2x |
| Consistency Model(蒸馏) | 1 | 6.20 | 1x |

数据要点: 流映射实现了比标准扩散模型快50倍到100倍的加速,同时保持了具有竞争力的FID分数。2步流匹配在质量上甚至超越了50步的DDIM,表明积分方法不仅更快,而且可能更精确。

关键参与者与案例研究

流映射的商业化竞赛已经展开,多家主要参与者和初创公司正在调整其战略。

Stability AI 一直是直言不讳的支持者。其Stable Diffusion 3Stable Video Diffusion模型均基于流匹配骨干网络。该公司声称,这种架构使得图像中的排版和复杂构图处理更出色,视频中的运动更连贯。其内部基准测试显示,与之前的基于扩散的模型相比,训练时间减少了30%,推理成本降低了50%。

OpenAI 已将基于流的原理整合到其Sora视频生成模型中。虽然确切架构未公开,但泄露的技术报告和研究人员访谈表明,Sora使用了一种流映射形式来生成长时长、时间上一致的视频。能够一次性看到整个视频轨迹,对于避免早期视频模型困扰的“闪烁”和“漂移”问题至关重要。

Google DeepMind 正在其Genie项目中探索将流映射用于世界模型,该项目旨在创建一个生成式交互环境。流映射的长时域稳定性对于在长时间跨度内模拟逼真的物理和智能体交互至关重要。

值得关注的初创公司:

| 公司 | 产品 | 方法 | 融资额 | 关键指标 |
|---|---|---|---|---|
| Pika Labs | Pika 2.0 | 基于流的视频生成 | 8000万美元 | 推理速度比v1快10倍 |
| Runway | Gen-3 Alpha | 混合扩散/流 | 2.37亿美元 | 12秒生成4秒1080p视频 |
| Luma AI | Dream Machine | 用于3D/视频的Rectified Flow | 4300万美元 | 单步3D网格生成 |

数据要点: 市场正在分化。现有巨头正在将流映射集成到其旗舰产品中,而初创公司则利用其效率优势来提供差异化的产品。

更多来自 Hacker News

GPT-5.5智商缩水:为何顶尖AI连简单指令都执行不了AINews发现,OpenAI最先进的推理模型GPT-5.5正出现一种日益严重的能力退化模式。多位开发者反映,尽管该模型在复杂逻辑推理和代码生成基准测试中表现出色,却明显丧失了遵循简单多步骤指令的能力。一位开发者描述了一个案例:GPT-5.一条推文代价20万美元:AI Agent对社交信号的致命信任2026年初,一个在Solana区块链上管理加密货币投资组合的自主AI Agent,被诱骗将价值20万美元的USDC转移至攻击者钱包。触发点是一条精心伪造的推文,伪装成来自可信DeFi协议的智能合约升级通知。该Agent被设计为抓取社交媒体Unsloth 联手 NVIDIA,消费级 GPU 大模型训练速度飙升 25%专注于高效 LLM 微调的初创公司 Unsloth 与 NVIDIA 合作,在 RTX 4090 等消费级 GPU 上实现了 25% 的训练速度提升。该优化针对 CUDA 内核内存带宽调度,从硬件中榨取出每一丝性能——此前这些硬件被认为不足查看来源专题页Hacker News 已收录 3035 篇文章

相关专题

diffusion models18 篇相关文章generative AI62 篇相关文章world models125 篇相关文章

时间归档

May 2026785 篇已发布文章

延伸阅读

Sora悄然退场:生成式AI从炫技转向模拟的拐点OpenAI已悄然关闭其突破性视频生成模型Sora的公开访问。此举远非简单的产品周期决策,它标志着整个生成式AI产业的根本性战略转向:焦点正从孤立的内容创作工具,转向构建真正自主智能所必需的世界模拟能力。AI智能体幻象:为何当今的‘先进’系统存在根本性局限AI产业正竞相构建‘高级智能体’,但市场上多数冠以此名的系统存在本质缺陷。它们只是大语言模型的复杂应用,而非真正具备世界理解与稳健规划能力的自主实体。营销话术与技术现实间的鸿沟,正威胁着企业级应用与智能体AI的长期发展。GPT-5.4 反响平平预示生成式 AI 战略转向:从规模崇拜到实用主义随着 GPT-5.4 发布遭遇用户普遍冷漠,生成式 AI 行业正面临一场意外的清算。这种温吞反应标志着根本性转变:令人敬畏的规模时代正让位于对具体效用、可靠集成和工作流转型的需求。市场裁决明确——若无根本性效用提升,更大不再意味着更好。DaVinci-MagiHuman:开源视频生成如何颠覆AI电影制作权力格局生成式AI的战略重心正从静态图像转向动态视频,一位新的开源挑战者正在改写游戏规则。向公众开放的高保真人像视频生成模型DaVinci-MagiHuman,正对商业AI实验室的封闭花园发起直接冲击,它承诺将专业级电影制作工具民主化,并点燃一场创

常见问题

这次模型发布“Flow Mapping Rewrites Generative AI: From Incremental Steps to Instant Creation”的核心内容是什么?

The generative AI world has long been dominated by diffusion models, which create images, videos, and audio by iteratively removing noise from a random starting point. This process…

从“flow mapping vs diffusion models comparison”看,这个模型发布为什么重要?

The traditional diffusion model operates on a principle borrowed from thermodynamics: gradually corrupt data with noise until it becomes pure Gaussian noise, then learn to reverse this process. The reverse process is mod…

围绕“rectified flow github repository tutorial”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。