超越Sora:中国新BAT三巨头如何重塑AI视频生成竞赛格局

April 2026
AI video generationworld models归档:April 2026
Sora作为AI视频生成唯一标杆的时代已经终结。竞争进入更复杂的新阶段——重点不再是追逐视觉保真度,而是构建实用、可扩展的视频AI生态系统。中国的科技巨头正引领这场变革,在世界模型与实时应用领域驱动创新。

今年初OpenAI发布Sora模型,为生成式视频AI设立了新的技术基准,展现了前所未有的时间连贯性与叙事理解力。然而,行业焦点已迅速从惊叹转向应用。一批独特的中国科技巨头——常被称作由百度、阿里巴巴、腾讯组成的“新BAT”——已成为后续竞赛中的主导力量。这些公司并非简单复刻Sora的成就,而是正沿着差异化、产品导向的路径激进探索。他们的战略强调开发理解物理动态的“世界模型”,将视频生成融入智能体协作框架,并直面实现实时生成的艰巨工程挑战。

技术路线上,后Sora时代呈现出架构哲学的分化。Sora推广了基于视频与图像隐空间时空分块的扩散Transformer(DiT)方法,而对实用性的追求则催生了效率、控制与推理层面的创新。中国领先的实验室正部署融合多种方法优势的混合模型。例如,百度ERNIE-ViLG的演进采用级联流程:其ERNIE语言模型的变体作为高层规划模块生成详细场景图与运动脚本,进而驱动隐空间视频扩散模型。关键的是,他们整合了受开源Stable Video Diffusion(SVD)框架启发的一致性解码器,并针对生成长序列进行了重大改进。GitHub仓库`PixArt-Σ/PixArt-Sigma`(获超8k星标) exemplifies 这一追求高质量、高效Transformer的趋势,其正被包括中国科技公司在内的全球研究团队适配于视频领域。

最显著的技术分水岭是对世界模型的集中投入。与仅学习像素关联的纯生成模型不同,世界模型旨在内化一个简化、抽象的物理与物体恒存性模拟。腾讯ARC实验室阿里巴巴达摩院正开创将视频生成视为学习隐空间中下一状态预测问题的模型。这通常涉及在海量视频数据上训练循环状态空间模型(RSSM)基于Transformer的动态模型,其明确的学习目标是基于先前状态及动作或文本指令预测下一隐空间帧。此架构天生促进时间连贯性与逻辑物体行为,减少了早期模型中常见的闪烁与形变伪影。

实时生成(如2秒片段低于100毫秒延迟)对传统迭代去噪扩散而言无法实现。此领域的前沿是流匹配修正流技术,它们学习从噪声到数据的直接、确定性映射。上海人工智能实验室VideoFlow上的工作,以及字节跳动等公司(集成于CapCut)的商业化实现,正利用这些方法。其权衡是以最大样本质量的轻微下降换取速度的巨大提升,这对许多交互式应用是可接受的。

关键玩家方面,“新BAT”框架——百度、阿里巴巴、腾讯——概括了生态系统的主要参与者,但现实还包括更广泛、敏捷的竞争者。百度作为全栈集成者,正利用其基础模型(ERNIE)与云基础设施(百度智能云)优势,提供垂直整合的视频AI技术栈。其视频版ERNIE-ViLG 3.0并非独立产品,而是嵌入百度AI云工作室的核心能力。该战略旨在通过将视频生成作为包含LLM API、搜索与数据分析的套件一部分,吸引企业开发者。百度近期展示的从单一提示词生成连贯、多镜头产品营销视频的能力,为电商与广告客户指明了直接的商业化路径。阿里巴巴则采取商业驱动的世界模型策略,其达摩院的研究专注于能生成逼真现实世界交互模拟的世界模型——例如包裹在仓库中移动、衣物在虚拟模特上垂坠或顾客与产品互动。这对其核心电商与物流业务具有直接应用价值。

技术深度解析

后Sora时代的技术格局以架构哲学的分化为特征。尽管Sora推广了应用于视频与图像隐码时空分块的扩散Transformer(DiT)方法,但对实用性的追求催生了效率、控制与推理层面的创新。

超越DiT:追求效率的混合架构
中国领先的实验室正部署结合多种方法优势的混合模型。例如,百度ERNIE-ViLG的演进采用级联流程:使用其ERNIE语言模型变体的高层规划模块生成详细场景图与运动脚本,进而驱动一个隐空间视频扩散模型。关键的是,他们整合了受开源Stable Video Diffusion(SVD)框架启发的一致性解码器,并针对生成长序列进行了重大改进。GitHub仓库`PixArt-Σ/PixArt-Sigma`(一个获超8k星标的项目) exemplifies 这一追求高质量、高效Transformer的趋势,其正被包括中国科技公司在内的全球研究团队适配于视频领域。

世界模型的必要性
最显著的技术分水岭是对世界模型的集中投入。与仅学习像素关联的纯生成模型不同,世界模型旨在内化一个简化、抽象的物理与物体恒存性模拟。腾讯ARC实验室阿里巴巴达摩院正开创将视频生成视为学习隐空间中下一状态预测问题的模型。这通常涉及在海量视频数据上训练循环状态空间模型(RSSM)基于Transformer的动态模型,其明确的学习目标是基于先前状态及动作或文本指令预测下一隐空间帧。此架构天生促进时间连贯性与逻辑物体行为,减少了早期模型中常见的闪烁与形变伪影。

实时挑战:从扩散模型到流匹配
传统迭代去噪扩散无法实现实时生成(例如,生成2秒片段延迟低于100毫秒)。此领域的前沿是流匹配修正流技术,它们学习从噪声到数据的直接、确定性映射。上海人工智能实验室VideoFlow上的工作,以及字节跳动等公司(集成于CapCut)的商业化实现,正利用这些方法。其权衡是以最大样本质量的轻微下降换取速度的巨大提升,这对许多交互式应用是可接受的。

| 技术路径 | 核心特征 | 最佳适用场景 | 示例实现 |
|---|---|---|---|
| 扩散Transformer(DiT) | 高质量,迭代去噪 | 电影级演示,高保真素材 | OpenAI Sora(基准) |
| 级联混合模型(LDM + Transformer) | 质量与控制平衡,模块化 | 商业内容创作 | 百度ERNIE-ViLG流程 |
| 世界模型(RSSM/Transformer) | 时间连贯性,物理逻辑 | 模拟,交互式叙事,游戏 | 阿里巴巴的“分边”(开发中) |
| 流匹配 / 修正流 | 超快速,单次生成 | 实时应用,直播滤镜,游戏资产 | 字节跳动CapCut AI工具 |

核心洞察: 技术前沿不再单一。清晰的 specialization 正在形成,不同的架构选择为特定产品目标优化:世界模型追求连贯性,流匹配追求速度,混合模型追求可控质量。“最佳”模型正变得因应用而异。

关键玩家与案例研究

“新BAT”框架——百度、阿里巴巴、腾讯——概括了生态系统的主要参与者,但现实还包括更广泛、敏捷的竞争者。

百度:全栈集成者
百度正利用其基础模型(ERNIE)与云基础设施(百度智能云)的优势,提供垂直整合的视频AI技术栈。其视频版ERNIE-ViLG 3.0并非独立产品,而是嵌入百度AI云工作室的核心能力。该战略旨在通过将视频生成作为包含LLM API、搜索与数据分析的套件一部分,吸引企业开发者。百度近期展示的从单一提示词生成连贯、多镜头产品营销视频的能力,为电商与广告客户指明了直接的商业化路径。

阿里巴巴:商业驱动的世界模型
阿里巴巴的策略与其核心电商和物流帝国深度绑定。达摩院的研究专注于能生成逼真现实世界交互模拟的世界模型——设想包裹在仓库中移动、衣物在虚拟模特上垂坠或顾客与产品互动的场景。这对虚拟试衣、物流模拟、产品展示等具有 immediate application。

相关专题

AI video generation29 篇相关文章world models114 篇相关文章

时间归档

April 20261835 篇已发布文章

延伸阅读

超越Sora:AI视频生成如何分野为世界模型与商业现实的双轨竞赛以Sora初现为标志的、追逐纯技术奇观的AI视频生成时代已告终结。行业正裂变为两条清晰并行的轨道:一是追求支撑长叙事逻辑的底层「世界模型」,二是推动高保真、可商用的实用工具开发。这一分野标志着该领域正从演示驱动的狂热,转向更务实的价值探索。字节跳动逐鹿Sora重塑AI视频竞赛格局,腾讯意外成为战略赢家生成式AI军备竞赛已从文本蔓延至视频领域,字节跳动在构建类Sora世界模型方面取得重大进展。然而,这场资源密集型的技术豪赌正引发战略悖论:冲锋技术前沿的挑战者,可能无意中为更擅长将突破商业化的对手铺平道路。深度分析揭示,根基深厚的腾讯或成最字节跳动AI视频狂飙:中国科技巨头如何赢得后Sora时代的商业化竞赛AI生成视频的叙事正在发生根本性转变。从OpenAI的Sora演示引发的初始惊叹,已转向对部署、实用性和可持续商业模式的务实关注。在这一新阶段,以字节跳动为首的中国科技集团正凭借其一体化生态,对行动迟缓的西方实验室发起决定性超越。OpenAI 关闭 Sora:AI 视频演示时代的终结与向商业现实的残酷转向在一场令人震惊的战略逆转中,OpenAI 已停止其旗舰视频生成模型 Sora 的开发。此举在其备受期待的 IPO 前夕执行,标志着一个深刻的行业修正:从追逐病毒式演示转向要求可行的商业模式和更深度的技术整合。

常见问题

这次公司发布“Beyond Sora: How China's New BAT Trio Is Redefining the AI Video Generation Race”主要讲了什么?

The release of OpenAI's Sora model earlier this year established a new technical baseline for generative video AI, demonstrating unprecedented temporal coherence and narrative unde…

从“Baidu Alibaba Tencent AI video model comparison 2024”看,这家公司的这次发布为什么值得关注?

The post-Sora technical landscape is characterized by a bifurcation in architectural philosophy. While Sora popularized a diffusion transformer (DiT) approach applied to spacetime patches of video and image latent codes…

围绕“How is Chinese AI video different from Sora”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。