技术深度解析
中国AI视频飞跃的核心创新在于世界模型+扩散混合架构。传统的视频扩散模型(如Sora的DiT)将每一帧视为需要顺序去噪的噪声图像,依赖时序注意力层来维持一致性。这种方法对短片段(4-10秒)有效,但超过20秒后,由于注意力漂移和误差累积,效果会急剧下降。
中国团队的解决之道是嵌入一个轻量级世界模型——一个基于Transformer的神经网络,专门预测物体轨迹、遮挡模式和物理交互——作为扩散过程的调节信号。世界模型以较低的时间分辨率(例如4fps)运行,生成一个粗略的运动规划,然后由扩散模型以全24-30fps的高视觉保真度进行渲染。这种关注点分离极大地提升了长程连贯性。
关键架构组件:
- 因果运动Transformer (CMT): 一种强制因果一致性的时序注意力机制——物体不能在没有合理遮挡的情况下凭空消失又出现。该机制基于一个包含1亿+视频片段及密集运动标注的自定义数据集进行训练。
- 潜在流扭曲 (Latent Flow Warping): 该模型并非独立地对每一帧进行去噪,而是利用光流估计对前一帧的潜在特征进行扭曲,确保像素级连续性。这项技术最初在开源仓库[AnimateDiff](https://github.com/guoyww/AnimateDiff)(现已获2万+星标)中提出,并已被中国实验室大规模改编和扩展。
- 多尺度时序调节: 世界模型在三个时间尺度上提供指导——全局场景结构(30秒)、物体轨迹(10秒)和微运动(1秒)——使扩散模型能够在长期情节与精细细节之间取得平衡。
在VBench基准(标准化视频生成评估)上的性能对比:
| 模型 | 平均连贯时长 (秒) | 主体一致性 (↑) | 背景一致性 (↑) | 时序闪烁 (↓) | 运动平滑度 (↑) |
|---|---|---|---|---|---|
| Kling 1.6 (快手) | 62 | 0.94 | 0.96 | 0.03 | 0.97 |
| Vidu 2.0 (生数科技) | 55 | 0.92 | 0.95 | 0.04 | 0.96 |
| Sora (OpenAI, 受限) | 18 | 0.85 | 0.88 | 0.08 | 0.91 |
| Veo 2 (Google) | 22 | 0.87 | 0.90 | 0.07 | 0.92 |
数据解读: 中国模型实现了3倍长的连贯时长,且一致性指标显著更优。这一差距并非微不足道——它代表了不同的能力层级。Sora平均18秒的时长从根本上受限于其纯扩散方法,而Kling通过世界模型集成解锁了长达一分钟的叙事能力。
成本优势源于两项创新。首先,世界模型通过提供强大的运动先验,将所需的扩散步数从50-100步减少到仅8-12步。其次,中国团队开发了定制的CUDA内核和量化技术,可在华为Ascend 910B芯片上高效运行,该芯片成本比NVIDIA H100低40%。结果是:1080p视频的推理成本为每秒钟0.015美元,而美国同类服务为0.25美元。
关键玩家与案例研究
快手 (Kling) 是无可争议的领导者。凭借其短视频平台超过4亿的日活跃用户,快手拥有无与伦比的训练数据集:超过100亿个用户上传的视频片段,附带丰富的元数据(点赞、分享、完播率)。2025年4月发布的Kling 1.6支持生成长达2分钟的1080p 60fps视频。该模型已直接集成到快手的创作者工具中,实现了诸如“AI视频续写”等功能——用户可以通过描述下一场景来扩展真实视频。
生数科技 (Vidu) 是一家总部位于北京的初创公司,由前微软亚洲研究院的科学家创立。Vidu 2.0专注于电影级画质,拥有独特的“导演模式”,允许用户通过文本指定摄像机角度、灯光和镜头构图。该模型在中国蓬勃发展的短剧行业中获得了关注,使用AI生成场景后,制作成本降低了70%。
智谱AI (CogVideoX) 采取了开源路线,在GitHub上发布了CogVideoX-5B(已获1.5万+星标)。虽然不如Kling精致,但它已成为中国开发者构建定制视频应用(从广告到教育)的首选基础模型。
竞争格局对比:
| 公司 | 产品 | 最长时长 | 分辨率 | API成本 ($/秒) | 关键差异化优势 |
|---|---|---|---|---|---|
| 快手 | Kling 1.6 | 120秒 | 1080p 60fps | $0.015 | 世界模型 + 海量用户数据 |
| 生数科技 | Vidu 2.0 | 90秒 | 1080p 30fps | $0.020 | 导演模式,电影级画质 |
| 智谱AI | CogVideoX | 60秒 | 720p 30fps | $0.008 (开源) | 开源,对开发者友好 |
| 字节跳动 | Jimeng (内部) | 45秒 | 1080p 30fps | 不适用 | 集成至抖音/TikTok |
| OpenAI | Sora | 20秒 | 1080p 30fps | $0.25 (估计) | 品牌知名度,研究声望 |
| Google | Veo 2 | 30秒 | 1080p 30fps | $0.20 (估计) | — |