技术深度解析
后Sora时代的技术格局以架构哲学的分化为特征。尽管Sora推广了应用于视频与图像隐码时空分块的扩散Transformer(DiT)方法,但对实用性的追求催生了效率、控制与推理层面的创新。
超越DiT:追求效率的混合架构
中国领先的实验室正部署结合多种方法优势的混合模型。例如,百度ERNIE-ViLG的演进采用级联流程:使用其ERNIE语言模型变体的高层规划模块生成详细场景图与运动脚本,进而驱动一个隐空间视频扩散模型。关键的是,他们整合了受开源Stable Video Diffusion(SVD)框架启发的一致性解码器,并针对生成长序列进行了重大改进。GitHub仓库`PixArt-Σ/PixArt-Sigma`(一个获超8k星标的项目) exemplifies 这一追求高质量、高效Transformer的趋势,其正被包括中国科技公司在内的全球研究团队适配于视频领域。
世界模型的必要性
最显著的技术分水岭是对世界模型的集中投入。与仅学习像素关联的纯生成模型不同,世界模型旨在内化一个简化、抽象的物理与物体恒存性模拟。腾讯ARC实验室与阿里巴巴达摩院正开创将视频生成视为学习隐空间中下一状态预测问题的模型。这通常涉及在海量视频数据上训练循环状态空间模型(RSSM)或基于Transformer的动态模型,其明确的学习目标是基于先前状态及动作或文本指令预测下一隐空间帧。此架构天生促进时间连贯性与逻辑物体行为,减少了早期模型中常见的闪烁与形变伪影。
实时挑战:从扩散模型到流匹配
传统迭代去噪扩散无法实现实时生成(例如,生成2秒片段延迟低于100毫秒)。此领域的前沿是流匹配与修正流技术,它们学习从噪声到数据的直接、确定性映射。上海人工智能实验室在VideoFlow上的工作,以及字节跳动等公司(集成于CapCut)的商业化实现,正利用这些方法。其权衡是以最大样本质量的轻微下降换取速度的巨大提升,这对许多交互式应用是可接受的。
| 技术路径 | 核心特征 | 最佳适用场景 | 示例实现 |
|---|---|---|---|
| 扩散Transformer(DiT) | 高质量,迭代去噪 | 电影级演示,高保真素材 | OpenAI Sora(基准) |
| 级联混合模型(LDM + Transformer) | 质量与控制平衡,模块化 | 商业内容创作 | 百度ERNIE-ViLG流程 |
| 世界模型(RSSM/Transformer) | 时间连贯性,物理逻辑 | 模拟,交互式叙事,游戏 | 阿里巴巴的“分边”(开发中) |
| 流匹配 / 修正流 | 超快速,单次生成 | 实时应用,直播滤镜,游戏资产 | 字节跳动CapCut AI工具 |
核心洞察: 技术前沿不再单一。清晰的 specialization 正在形成,不同的架构选择为特定产品目标优化:世界模型追求连贯性,流匹配追求速度,混合模型追求可控质量。“最佳”模型正变得因应用而异。
关键玩家与案例研究
“新BAT”框架——百度、阿里巴巴、腾讯——概括了生态系统的主要参与者,但现实还包括更广泛、敏捷的竞争者。
百度:全栈集成者
百度正利用其基础模型(ERNIE)与云基础设施(百度智能云)的优势,提供垂直整合的视频AI技术栈。其视频版ERNIE-ViLG 3.0并非独立产品,而是嵌入百度AI云工作室的核心能力。该战略旨在通过将视频生成作为包含LLM API、搜索与数据分析的套件一部分,吸引企业开发者。百度近期展示的从单一提示词生成连贯、多镜头产品营销视频的能力,为电商与广告客户指明了直接的商业化路径。
阿里巴巴:商业驱动的世界模型
阿里巴巴的策略与其核心电商和物流帝国深度绑定。达摩院的研究专注于能生成逼真现实世界交互模拟的世界模型——设想包裹在仓库中移动、衣物在虚拟模特上垂坠或顾客与产品互动的场景。这对虚拟试衣、物流模拟、产品展示等具有 immediate application。