超越Sora：中国新BAT三巨头如何重塑AI视频生成竞赛格局

今年初OpenAI发布Sora模型，为生成式视频AI设立了新的技术基准，展现了前所未有的时间连贯性与叙事理解力。然而，行业焦点已迅速从惊叹转向应用。一批独特的中国科技巨头——常被称作由百度、阿里巴巴、腾讯组成的“新BAT”——已成为后续竞赛中的主导力量。这些公司并非简单复刻Sora的成就，而是正沿着差异化、产品导向的路径激进探索。他们的战略强调开发理解物理动态的“世界模型”，将视频生成融入智能体协作框架，并直面实现实时生成的艰巨工程挑战。

技术路线上，后Sora时代呈现出架构哲学的分化。Sora推广了基于视频与图像隐空间时空分块的扩散Transformer（DiT）方法，而对实用性的追求则催生了效率、控制与推理层面的创新。中国领先的实验室正部署融合多种方法优势的混合模型。例如，百度ERNIE-ViLG的演进采用级联流程：其ERNIE语言模型的变体作为高层规划模块生成详细场景图与运动脚本，进而驱动隐空间视频扩散模型。关键的是，他们整合了受开源Stable Video Diffusion（SVD）框架启发的一致性解码器，并针对生成长序列进行了重大改进。GitHub仓库`PixArt-Σ/PixArt-Sigma`（获超8k星标） exemplifies 这一追求高质量、高效Transformer的趋势，其正被包括中国科技公司在内的全球研究团队适配于视频领域。

最显著的技术分水岭是对世界模型的集中投入。与仅学习像素关联的纯生成模型不同，世界模型旨在内化一个简化、抽象的物理与物体恒存性模拟。腾讯ARC实验室与阿里巴巴达摩院正开创将视频生成视为学习隐空间中下一状态预测问题的模型。这通常涉及在海量视频数据上训练循环状态空间模型（RSSM）或基于Transformer的动态模型，其明确的学习目标是基于先前状态及动作或文本指令预测下一隐空间帧。此架构天生促进时间连贯性与逻辑物体行为，减少了早期模型中常见的闪烁与形变伪影。

实时生成（如2秒片段低于100毫秒延迟）对传统迭代去噪扩散而言无法实现。此领域的前沿是流匹配与修正流技术，它们学习从噪声到数据的直接、确定性映射。上海人工智能实验室在VideoFlow上的工作，以及字节跳动等公司（集成于CapCut）的商业化实现，正利用这些方法。其权衡是以最大样本质量的轻微下降换取速度的巨大提升，这对许多交互式应用是可接受的。

关键玩家方面，“新BAT”框架——百度、阿里巴巴、腾讯——概括了生态系统的主要参与者，但现实还包括更广泛、敏捷的竞争者。百度作为全栈集成者，正利用其基础模型（ERNIE）与云基础设施（百度智能云）优势，提供垂直整合的视频AI技术栈。其视频版ERNIE-ViLG 3.0并非独立产品，而是嵌入百度AI云工作室的核心能力。该战略旨在通过将视频生成作为包含LLM API、搜索与数据分析的套件一部分，吸引企业开发者。百度近期展示的从单一提示词生成连贯、多镜头产品营销视频的能力，为电商与广告客户指明了直接的商业化路径。阿里巴巴则采取商业驱动的世界模型策略，其达摩院的研究专注于能生成逼真现实世界交互模拟的世界模型——例如包裹在仓库中移动、衣物在虚拟模特上垂坠或顾客与产品互动。这对其核心电商与物流业务具有直接应用价值。

技术深度解析

后Sora时代的技术格局以架构哲学的分化为特征。尽管Sora推广了应用于视频与图像隐码时空分块的扩散Transformer（DiT）方法，但对实用性的追求催生了效率、控制与推理层面的创新。

超越DiT：追求效率的混合架构
中国领先的实验室正部署结合多种方法优势的混合模型。例如，百度ERNIE-ViLG的演进采用级联流程：使用其ERNIE语言模型变体的高层规划模块生成详细场景图与运动脚本，进而驱动一个隐空间视频扩散模型。关键的是，他们整合了受开源Stable Video Diffusion（SVD）框架启发的一致性解码器，并针对生成长序列进行了重大改进。GitHub仓库`PixArt-Σ/PixArt-Sigma`（一个获超8k星标的项目） exemplifies 这一追求高质量、高效Transformer的趋势，其正被包括中国科技公司在内的全球研究团队适配于视频领域。

世界模型的必要性
最显著的技术分水岭是对世界模型的集中投入。与仅学习像素关联的纯生成模型不同，世界模型旨在内化一个简化、抽象的物理与物体恒存性模拟。腾讯ARC实验室与阿里巴巴达摩院正开创将视频生成视为学习隐空间中下一状态预测问题的模型。这通常涉及在海量视频数据上训练循环状态空间模型（RSSM）或基于Transformer的动态模型，其明确的学习目标是基于先前状态及动作或文本指令预测下一隐空间帧。此架构天生促进时间连贯性与逻辑物体行为，减少了早期模型中常见的闪烁与形变伪影。

实时挑战：从扩散模型到流匹配
传统迭代去噪扩散无法实现实时生成（例如，生成2秒片段延迟低于100毫秒）。此领域的前沿是流匹配与修正流技术，它们学习从噪声到数据的直接、确定性映射。上海人工智能实验室在VideoFlow上的工作，以及字节跳动等公司（集成于CapCut）的商业化实现，正利用这些方法。其权衡是以最大样本质量的轻微下降换取速度的巨大提升，这对许多交互式应用是可接受的。

| 技术路径 | 核心特征 | 最佳适用场景 | 示例实现 |
|---|---|---|---|
| 扩散Transformer（DiT） | 高质量，迭代去噪 | 电影级演示，高保真素材 | OpenAI Sora（基准） |
| 级联混合模型（LDM + Transformer） | 质量与控制平衡，模块化 | 商业内容创作 | 百度ERNIE-ViLG流程 |
| 世界模型（RSSM/Transformer） | 时间连贯性，物理逻辑 | 模拟，交互式叙事，游戏 | 阿里巴巴的“分边”（开发中） |
| 流匹配 / 修正流 | 超快速，单次生成 | 实时应用，直播滤镜，游戏资产 | 字节跳动CapCut AI工具 |

核心洞察： 技术前沿不再单一。清晰的 specialization 正在形成，不同的架构选择为特定产品目标优化：世界模型追求连贯性，流匹配追求速度，混合模型追求可控质量。“最佳”模型正变得因应用而异。

关键玩家与案例研究

“新BAT”框架——百度、阿里巴巴、腾讯——概括了生态系统的主要参与者，但现实还包括更广泛、敏捷的竞争者。

百度：全栈集成者
百度正利用其基础模型（ERNIE）与云基础设施（百度智能云）的优势，提供垂直整合的视频AI技术栈。其视频版ERNIE-ViLG 3.0并非独立产品，而是嵌入百度AI云工作室的核心能力。该战略旨在通过将视频生成作为包含LLM API、搜索与数据分析的套件一部分，吸引企业开发者。百度近期展示的从单一提示词生成连贯、多镜头产品营销视频的能力，为电商与广告客户指明了直接的商业化路径。

阿里巴巴：商业驱动的世界模型
阿里巴巴的策略与其核心电商和物流帝国深度绑定。达摩院的研究专注于能生成逼真现实世界交互模拟的世界模型——设想包裹在仓库中移动、衣物在虚拟模特上垂坠或顾客与产品互动的场景。这对虚拟试衣、物流模拟、产品展示等具有 immediate application。

时间归档

延伸阅读

常见问题

这次公司发布“Beyond Sora: How China's New BAT Trio Is Redefining the AI Video Generation Race”主要讲了什么？

The release of OpenAI's Sora model earlier this year established a new technical baseline for generative video AI, demonstrating unprecedented temporal coherence and narrative unde…

从“Baidu Alibaba Tencent AI video model comparison 2024”看，这家公司的这次发布为什么值得关注？

The post-Sora technical landscape is characterized by a bifurcation in architectural philosophy. While Sora popularized a diffusion transformer (DiT) approach applied to spacetime patches of video and image latent codes…

围绕“How is Chinese AI video different from Sora”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。