技术深度解析
Sora及其同类产品的根本问题在于架构。这些模型基于扩散变换器(DiT),根据噪声输入和文本提示预测下一帧或像素块。本质上,这是一种针对视频的高级自动补全机制。它在生成短时高质量片段(通常5-15秒)方面表现出色,因为此时下一帧的统计可能性较高。但模型缺乏对场景因果结构、物体恒存性或叙事弧线的内部表征。
以“物体一致性”挑战为例:一个角色穿过房间,拿起杯子喝水。对人类导演而言,这是一连串有意图的动作。但对扩散模型而言,每一帧都是独立生成的(或仅带有极弱的时间条件)。结果就是:杯子可能在帧与帧之间改变颜色、形状或位置;角色的服装可能变形;背景可能闪烁。这不是一个可以修补的漏洞——而是概率生成范式的必然结果。
OpenAI研究团队在2024年2月发布的技术报告中详述了Sora的架构:将视频压缩为时空块,并使用变换器进行去噪。模型在庞大的视频数据集上训练——很可能包含YouTube和素材库视频——但训练目标纯粹是预测性的:最小化生成帧与真实帧之间的差异。没有针对“叙事连贯性”或“角色身份”的损失项。
要理解问题的规模,可以看看领先视频生成模型在标准化基准测试上的表现。由清华大学等机构研究人员发布的VBench基准套件,从16个维度评估模型,包括主体一致性、背景一致性、时间闪烁和运动平滑度。
| 模型 | 主体一致性 | 背景一致性 | 时间闪烁 | 总体得分 |
|---|---|---|---|---|
| Sora(2024年2月演示版) | 0.82 | 0.79 | 0.71 | 0.76 |
| Runway Gen-3 Alpha | 0.78 | 0.74 | 0.68 | 0.72 |
| Pika 2.0 | 0.75 | 0.71 | 0.65 | 0.69 |
| Stable Video Diffusion (SVD) | 0.72 | 0.69 | 0.62 | 0.66 |
| Emu Video (Meta) | 0.80 | 0.76 | 0.69 | 0.74 |
数据要点: 即使最好的模型在主体一致性上得分也低于0.85——意味着超过15%的生成片段中,主要主体会改变外观。对于一段30秒的商业广告,跨多个镜头生成一致序列的概率低得惊人。这不是一项可投入生产的技术。
在开源方面,社区围绕Stable Video Diffusion(github.com/Stability-AI/generative-models,约25k星标)和AnimateDiff(github.com/guoyww/AnimateDiff,约15k星标)等仓库集结。这些工具允许对特定角色或风格进行微调,但继承了相同的架构限制。AnimateDiff论文明确指出“长程时间连贯性仍是一个开放挑战”。
关键玩家与案例研究
OpenAI是最显眼的牺牲品,但远非孤例。整个AI视频生成初创生态系统都在从演示向产品过渡中挣扎。
Runway(Gen-3 Alpha)曾是早期领先者,以15亿美元估值获得2.37亿美元融资。其产品被一些广告公司用于情绪板和概念可视化,但并非最终交付。Runway首席执行官Cristóbal Valenzuela公开表示“AI是探索工具,而非生产工具”——这与此前的承诺相比明显退步。
Pika Labs融资8000万美元,推出Pika 2.0并附带“场景一致性”功能。AINews内部测试发现,该功能可将闪烁减少约30%,但当镜头移动或角色与物体互动时完全失效。
Stability AI尽管财务动荡,仍以开源模型形式发布了Stable Video Diffusion(SVD)。它被爱好者广泛使用,但在专业流程中采用有限。公司裁员和领导层变动拖慢了开发进度。
Meta的Emu Video可以说是技术最先进的,采用两阶段流程:首先生成图像,然后将其动画化。这种方法提高了一致性,但限制了创意灵活性。Meta尚未将其作为商业产品发布。
| 公司 | 产品 | 融资额 | 估值(2025年) | 关键限制 |
|---|---|---|---|---|
| OpenAI | Sora | 130亿美元+(总计) | 800亿美元+ | 未公开上线;内部可靠性问题 |
| Runway | Gen-3 Alpha | 2.37亿美元 | 15亿美元 | 不用于最终制作 |
| Pika Labs | Pika 2.0 | 8000万美元 | 5亿美元 | 场景一致性在运动时失败 |
| Stability AI | Stable Video Diffusion | 1.01亿美元 | 10亿美元(峰值) | 时间连贯性有限 |
| Meta | Emu Video | 内部 | 不适用 | 未商业化 |
数据要点: 这些公司合计融资超过134亿美元。