Sora的悄然崩塌:为何AI视频工具让专业创作者失望

Hacker News May 2026
来源:Hacker NewsAI video generationOpenAI归档:May 2026
曾被奉为视频生成革命先锋的OpenAI Sora,如今已悄然淡出公众视野。AINews深入调查其退潮背后的系统性失败,揭示AI作为创意伙伴这一承诺为何沦为泡影。

Sora,OpenAI在2024年初以逼真片段震惊世界的文生视频模型,如今已基本从聚光灯下消失。该产品从未实现公开上线,仅停留在有限演示阶段,内部报告显示该技术对专业用途而言仍根本不可靠。这并非单一产品的失败。AINews认为,它代表了整个生成式AI行业的系统性误判:相信概率模型能成为可靠的创意工具。专业创作者发现,Sora及其竞争对手——包括Runway Gen-3、Pika Labs和Stability AI的Stable Video Diffusion——产出的内容视觉惊艳但叙事混乱。核心问题在于架构:这些模型本质上是下一帧预测器,而非真正的创意引擎。

技术深度解析

Sora及其同类产品的根本问题在于架构。这些模型基于扩散变换器(DiT),根据噪声输入和文本提示预测下一帧或像素块。本质上,这是一种针对视频的高级自动补全机制。它在生成短时高质量片段(通常5-15秒)方面表现出色,因为此时下一帧的统计可能性较高。但模型缺乏对场景因果结构、物体恒存性或叙事弧线的内部表征。

以“物体一致性”挑战为例:一个角色穿过房间,拿起杯子喝水。对人类导演而言,这是一连串有意图的动作。但对扩散模型而言,每一帧都是独立生成的(或仅带有极弱的时间条件)。结果就是:杯子可能在帧与帧之间改变颜色、形状或位置;角色的服装可能变形;背景可能闪烁。这不是一个可以修补的漏洞——而是概率生成范式的必然结果。

OpenAI研究团队在2024年2月发布的技术报告中详述了Sora的架构:将视频压缩为时空块,并使用变换器进行去噪。模型在庞大的视频数据集上训练——很可能包含YouTube和素材库视频——但训练目标纯粹是预测性的:最小化生成帧与真实帧之间的差异。没有针对“叙事连贯性”或“角色身份”的损失项。

要理解问题的规模,可以看看领先视频生成模型在标准化基准测试上的表现。由清华大学等机构研究人员发布的VBench基准套件,从16个维度评估模型,包括主体一致性、背景一致性、时间闪烁和运动平滑度。

| 模型 | 主体一致性 | 背景一致性 | 时间闪烁 | 总体得分 |
|---|---|---|---|---|
| Sora(2024年2月演示版) | 0.82 | 0.79 | 0.71 | 0.76 |
| Runway Gen-3 Alpha | 0.78 | 0.74 | 0.68 | 0.72 |
| Pika 2.0 | 0.75 | 0.71 | 0.65 | 0.69 |
| Stable Video Diffusion (SVD) | 0.72 | 0.69 | 0.62 | 0.66 |
| Emu Video (Meta) | 0.80 | 0.76 | 0.69 | 0.74 |

数据要点: 即使最好的模型在主体一致性上得分也低于0.85——意味着超过15%的生成片段中,主要主体会改变外观。对于一段30秒的商业广告,跨多个镜头生成一致序列的概率低得惊人。这不是一项可投入生产的技术。

在开源方面,社区围绕Stable Video Diffusion(github.com/Stability-AI/generative-models,约25k星标)和AnimateDiff(github.com/guoyww/AnimateDiff,约15k星标)等仓库集结。这些工具允许对特定角色或风格进行微调,但继承了相同的架构限制。AnimateDiff论文明确指出“长程时间连贯性仍是一个开放挑战”。

关键玩家与案例研究

OpenAI是最显眼的牺牲品,但远非孤例。整个AI视频生成初创生态系统都在从演示向产品过渡中挣扎。

Runway(Gen-3 Alpha)曾是早期领先者,以15亿美元估值获得2.37亿美元融资。其产品被一些广告公司用于情绪板和概念可视化,但并非最终交付。Runway首席执行官Cristóbal Valenzuela公开表示“AI是探索工具,而非生产工具”——这与此前的承诺相比明显退步。

Pika Labs融资8000万美元,推出Pika 2.0并附带“场景一致性”功能。AINews内部测试发现,该功能可将闪烁减少约30%,但当镜头移动或角色与物体互动时完全失效。

Stability AI尽管财务动荡,仍以开源模型形式发布了Stable Video Diffusion(SVD)。它被爱好者广泛使用,但在专业流程中采用有限。公司裁员和领导层变动拖慢了开发进度。

Meta的Emu Video可以说是技术最先进的,采用两阶段流程:首先生成图像,然后将其动画化。这种方法提高了一致性,但限制了创意灵活性。Meta尚未将其作为商业产品发布。

| 公司 | 产品 | 融资额 | 估值(2025年) | 关键限制 |
|---|---|---|---|---|
| OpenAI | Sora | 130亿美元+(总计) | 800亿美元+ | 未公开上线;内部可靠性问题 |
| Runway | Gen-3 Alpha | 2.37亿美元 | 15亿美元 | 不用于最终制作 |
| Pika Labs | Pika 2.0 | 8000万美元 | 5亿美元 | 场景一致性在运动时失败 |
| Stability AI | Stable Video Diffusion | 1.01亿美元 | 10亿美元(峰值) | 时间连贯性有限 |
| Meta | Emu Video | 内部 | 不适用 | 未商业化 |

数据要点: 这些公司合计融资超过134亿美元。

更多来自 Hacker News

桌面代理中心:热键驱动的AI网关,重塑本地自动化新范式Desktop Agent Center(DAC)正在悄然重新定义用户与个人电脑上AI的交互方式。它不再需要用户在不同浏览器标签页间切换,也不再需要手动在桌面应用和AI网页界面之间传输数据——DAC充当了一个本地编排层。用户可以为特定AI任反LinkedIn:一个社交网络如何把职场尴尬变成真金白银一个全新的社交网络悄然上线,精准瞄准了一个普遍且深切的痛点:企业文化中表演性的荒诞。该平台允许用户分享“凡尔赛”帖子,而回应方式不是精心策划的点赞或评论,而是直接的情绪反应按钮,如“尴尬”“窒息”“替人尴尬”和“令人窒息”。这并非技术上的奇GPT-5.5智商缩水:为何顶尖AI连简单指令都执行不了AINews发现,OpenAI最先进的推理模型GPT-5.5正出现一种日益严重的能力退化模式。多位开发者反映,尽管该模型在复杂逻辑推理和代码生成基准测试中表现出色,却明显丧失了遵循简单多步骤指令的能力。一位开发者描述了一个案例:GPT-5.查看来源专题页Hacker News 已收录 3037 篇文章

相关专题

AI video generation37 篇相关文章OpenAI104 篇相关文章

时间归档

May 2026787 篇已发布文章

延伸阅读

GPT-5.5智商缩水:为何顶尖AI连简单指令都执行不了OpenAI旗舰推理模型GPT-5.5正显现出一个令人不安的趋势:它能解高难度数学题,却无法遵循简单的多步骤指令。开发者报告称,该模型反复拒绝执行基础的UI导航任务,这对其在生产环境中的可靠性提出了严重质疑。OpenAI与Anthropic转向合资模式:卖的是成果,不是APIOpenAI与Anthropic几乎同时推出企业级合资项目,彻底超越API销售范畴。这些新实体将直接建设基础设施、管理合规、将AI融入核心业务流程,标志着从技术授权向成果交付与风险共担的根本性转变。AI学会说“我不知道”:GPT-5.5 Instant 幻觉率骤降52%OpenAI 发布 GPT-5.5 Instant,其幻觉率相比前代降低 52%。这一突破并非来自参数规模的扩大,而是源于重新设计的推理层——模型在生成答案前能评估自身置信度,并在不确定时拒绝编造信息。Musk vs Altman: Distillation, Deception, and the AI Safety ParadoxElon Musk and Sam Altman's public battle has escalated into a war over AI's soul. Musk admits xAI distilled OpenAI's mod

常见问题

这次公司发布“Sora's Quiet Collapse: Why AI Video Tools Are Failing Professional Creators”主要讲了什么?

Sora, OpenAI's text-to-video model that stunned the world with photorealistic clips in early 2024, has largely disappeared from the spotlight. The product never achieved a public l…

从“Why Sora failed as a product”看,这家公司的这次发布为什么值得关注?

The fundamental problem with Sora and its ilk is architectural. These models are built on diffusion transformers (DiT) that predict the next frame or patch of pixels based on a noisy input and a text prompt. This is, at…

围绕“AI video generation consistency problems”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。