Sora的悄然崩塌：为何AI视频工具让专业创作者失望

Sora，OpenAI在2024年初以逼真片段震惊世界的文生视频模型，如今已基本从聚光灯下消失。该产品从未实现公开上线，仅停留在有限演示阶段，内部报告显示该技术对专业用途而言仍根本不可靠。这并非单一产品的失败。AINews认为，它代表了整个生成式AI行业的系统性误判：相信概率模型能成为可靠的创意工具。专业创作者发现，Sora及其竞争对手——包括Runway Gen-3、Pika Labs和Stability AI的Stable Video Diffusion——产出的内容视觉惊艳但叙事混乱。核心问题在于架构：这些模型本质上是下一帧预测器，而非真正的创意引擎。

技术深度解析

Sora及其同类产品的根本问题在于架构。这些模型基于扩散变换器（DiT），根据噪声输入和文本提示预测下一帧或像素块。本质上，这是一种针对视频的高级自动补全机制。它在生成短时高质量片段（通常5-15秒）方面表现出色，因为此时下一帧的统计可能性较高。但模型缺乏对场景因果结构、物体恒存性或叙事弧线的内部表征。

以“物体一致性”挑战为例：一个角色穿过房间，拿起杯子喝水。对人类导演而言，这是一连串有意图的动作。但对扩散模型而言，每一帧都是独立生成的（或仅带有极弱的时间条件）。结果就是：杯子可能在帧与帧之间改变颜色、形状或位置；角色的服装可能变形；背景可能闪烁。这不是一个可以修补的漏洞——而是概率生成范式的必然结果。

OpenAI研究团队在2024年2月发布的技术报告中详述了Sora的架构：将视频压缩为时空块，并使用变换器进行去噪。模型在庞大的视频数据集上训练——很可能包含YouTube和素材库视频——但训练目标纯粹是预测性的：最小化生成帧与真实帧之间的差异。没有针对“叙事连贯性”或“角色身份”的损失项。

要理解问题的规模，可以看看领先视频生成模型在标准化基准测试上的表现。由清华大学等机构研究人员发布的VBench基准套件，从16个维度评估模型，包括主体一致性、背景一致性、时间闪烁和运动平滑度。

| 模型 | 主体一致性 | 背景一致性 | 时间闪烁 | 总体得分 |
|---|---|---|---|---|
| Sora（2024年2月演示版） | 0.82 | 0.79 | 0.71 | 0.76 |
| Runway Gen-3 Alpha | 0.78 | 0.74 | 0.68 | 0.72 |
| Pika 2.0 | 0.75 | 0.71 | 0.65 | 0.69 |
| Stable Video Diffusion (SVD) | 0.72 | 0.69 | 0.62 | 0.66 |
| Emu Video (Meta) | 0.80 | 0.76 | 0.69 | 0.74 |

数据要点： 即使最好的模型在主体一致性上得分也低于0.85——意味着超过15%的生成片段中，主要主体会改变外观。对于一段30秒的商业广告，跨多个镜头生成一致序列的概率低得惊人。这不是一项可投入生产的技术。

在开源方面，社区围绕Stable Video Diffusion（github.com/Stability-AI/generative-models，约25k星标）和AnimateDiff（github.com/guoyww/AnimateDiff，约15k星标）等仓库集结。这些工具允许对特定角色或风格进行微调，但继承了相同的架构限制。AnimateDiff论文明确指出“长程时间连贯性仍是一个开放挑战”。

关键玩家与案例研究

OpenAI是最显眼的牺牲品，但远非孤例。整个AI视频生成初创生态系统都在从演示向产品过渡中挣扎。

Runway（Gen-3 Alpha）曾是早期领先者，以15亿美元估值获得2.37亿美元融资。其产品被一些广告公司用于情绪板和概念可视化，但并非最终交付。Runway首席执行官Cristóbal Valenzuela公开表示“AI是探索工具，而非生产工具”——这与此前的承诺相比明显退步。

Pika Labs融资8000万美元，推出Pika 2.0并附带“场景一致性”功能。AINews内部测试发现，该功能可将闪烁减少约30%，但当镜头移动或角色与物体互动时完全失效。

Stability AI尽管财务动荡，仍以开源模型形式发布了Stable Video Diffusion（SVD）。它被爱好者广泛使用，但在专业流程中采用有限。公司裁员和领导层变动拖慢了开发进度。

Meta的Emu Video可以说是技术最先进的，采用两阶段流程：首先生成图像，然后将其动画化。这种方法提高了一致性，但限制了创意灵活性。Meta尚未将其作为商业产品发布。

| 公司 | 产品 | 融资额 | 估值（2025年） | 关键限制 |
|---|---|---|---|---|
| OpenAI | Sora | 130亿美元+（总计） | 800亿美元+ | 未公开上线；内部可靠性问题 |
| Runway | Gen-3 Alpha | 2.37亿美元 | 15亿美元 | 不用于最终制作 |
| Pika Labs | Pika 2.0 | 8000万美元 | 5亿美元 | 场景一致性在运动时失败 |
| Stability AI | Stable Video Diffusion | 1.01亿美元 | 10亿美元（峰值） | 时间连贯性有限 |
| Meta | Emu Video | 内部 | 不适用 | 未商业化 |

数据要点： 这些公司合计融资超过134亿美元。

时间归档

延伸阅读

常见问题

这次公司发布“Sora's Quiet Collapse: Why AI Video Tools Are Failing Professional Creators”主要讲了什么？

Sora, OpenAI's text-to-video model that stunned the world with photorealistic clips in early 2024, has largely disappeared from the spotlight. The product never achieved a public l…

从“Why Sora failed as a product”看，这家公司的这次发布为什么值得关注？

The fundamental problem with Sora and its ilk is architectural. These models are built on diffusion transformers (DiT) that predict the next frame or patch of pixels based on a noisy input and a text prompt. This is, at…

围绕“AI video generation consistency problems”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。