技术深潜
构建能与Sora抗衡的模型,本质上是规模、架构与数据的综合较量。OpenAI的Sora是一种在视频与图像潜空间编码的时空片段上操作的扩散Transformer(DiT)。字节跳动必须攻克的核心技术难关包括:构建能将原始视频压缩至低维潜空间的视频编码器、在该潜空间中训练用于去噪与预测片段的Transformer,以及开发能产生连贯物体恒存性与动态运动的物理感知训练机制。
字节跳动的研究机构ByteDance Research已发表数篇关键论文,揭示了其技术路径。'Boximator'项目(GitHub: `ByteDance/Boximator`)引入了一种利用边界框与轨迹点精准控制生成视频中物体运动的新方法,这直击早期视频模型用户控制力薄弱的痛点。该仓库已获超2.8k星标,反映出业界对解决可控性问题的强烈兴趣。在架构层面,行业共识正转向混合模型。纯扩散模型对生成长视频的计算消耗令人望而却步,因此业界开始探索预测潜帧序列的自回归模型,或采用类似Google VideoPoet的、将视频令牌化以供Transformer预测的VQ-VAE架构。
其资源密集性无论如何强调都不为过。训练一个如Sora般的顶尖视频模型,估计需要在H100或同级芯片集群上消耗1万至10万GPU小时。推理成本同样高昂,使得实时生成在当下大众消费级应用中仍不具备经济可行性。
| 技术挑战 | Sora的路径(推测) | 字节跳动可能的应对 | 计算成本(相对值) |
|---|---|---|---|
| 架构 | 基于时空片段的扩散Transformer(DiT) | 混合扩散/自回归模型,可能结合VQ编码 | 极高(10^24 FLOPs以上) |
| 训练数据 | 授权及公开视频,海量规模 | 自有抖音/TikTok数据集,授权内容 | 高(数据整理与授权) |
| 时序连贯性 | 跨时间片段;隐式世界模型 | 显式运动建模(如Boximator),光流损失函数 | 非常高(长序列训练) |
| 推理延迟 | 生成60秒片段需数分钟 | 初期优化针对短社交片段(5-15秒) | 实时生成成本过高(目标<$0.10/次) |
数据启示: 上表显示,尽管架构路径可能不同,但对算力与数据的需求均指向极端水平。字节跳动的潜在优势在于其独特、海量的短视频数据集,但将其转化为通用世界模型所需的财务与工程开销,依然高不可攀。
关键参与者与案例研究
生成式视频竞技场已不再是OpenAI与初创公司之间的对决,而是演变为一场由不同资源禀赋与战略目标定义的多极竞争。
字节跳动: 该公司正采取全栈式推进策略。除基座模型研究外,其正将视频生成能力整合进剪映(CapCut)编辑套件,并为抖音试验AI驱动功能。其战略诉求兼具防御性与进攻性:既要防御核心短视频平台免受未来AI原生颠覆者的冲击,又要创造能锁定用户于其生态内的新型AI创作工具。然而,这需要将利润持续、大规模地再投资于回报不确定且周期漫长的研发中。
腾讯: 腾讯的战略在于生态整合与选择性合作。其在AI基础设施(如用于文本与图像的混元模型系列)上投入显著,但似乎并无强烈意愿去赢得基座视频模型竞赛。相反,它正聚焦于应用层。腾讯云虽提供AI视频工具,但更重要的是,其游戏工作室(天美、光子)正率先将AI用于游戏内过场动画生成与资产创作。微信视频号作为其短视频功能,可集成第三方AI视频工具赋能创作者,而无需腾讯承担全额的模型训练成本。腾讯AI Lab的张潼等研究人员已发表关于高效视频生成的论文,暗示其关注点在于实用、可部署的模型,而非纯粹追求规模。
其他中国竞争者:
- 阿里巴巴: 通过其通义千问模型家族及云业务部门,也在构建视频能力,但更侧重于B2B与电商场景(如生成商品视频)。
- 百度: 依托其文心生态,但其优势仍在于搜索与知识整合,而非创意视频。
- 初创公司: Runway ML与Pika享有较高行业关注度,但中国本土的如Vidu(来自生数科技与清华大学)等,虽规模较小却已展现出令人印象深刻的效果。