OpenAI 关闭 Sora：从视频生成到世界模型的战略转向

Q: 围绕“What is the computational cost of running Sora vs Runway?”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

OpenAI 已正式停止其旗舰文生视频生成模型 Sora 的运营。这款曾为 AI 模拟视觉叙事设定标杆的模型，其终结被内部定位为战略资源再分配，而非技术失败，这突显了生成式 AI 领域的一个关键转折点。Sora 采用的扩散 Transformer 混合架构，在模拟物理动态和叙事逻辑方面实现了前所未有的连贯性，但其计算成本却高得惊人且难以持续。维持 Sora 作为一项面向公众的产品，需要在推理、内容安全审核和对齐方面投入巨大资源。OpenAI 领导层判定，这些资源应更好地投入到开发“世界模型”和强大 AI 智能体框架的竞赛中。这一转向反映了行业对 AI 核心能力认知的成熟：从追求炫目的生成能力，转向构建能够理解、推理并与世界交互的基础模型。Sora 的关闭不仅是一个产品的终结，更是生成式 AI 发展重心转移的明确信号，预示着资源将向更具根本性意义的 AI 架构集中。

技术深度解析

Sora 的技术架构代表了两种主流范式的精妙融合：扩散模型的视觉保真度与 Transformer 的可扩展上下文处理能力。其核心在于“时空潜在片段”的表示方法。它将原始视频数据压缩到低维潜在空间，然后将这些压缩表示分解为一系列时空片段——类似于语言模型中的词元。这些片段由一个庞大的扩散 Transformer（DiT）处理，该模型根据用户的文本提示，从随机噪声开始迭代地进行去噪。

该模型的卓越之处在于，它基于海量多样化的视频及其相关文本描述进行训练，使其不仅能学习物体外观，还能掌握基础物理规律、摄像机运动和叙事因果关系。然而，这种能力代价高昂。据估计，生成一段 60 秒的 1080p 视频片段，推理过程就需要数千个 GPU 小时，这使得广泛的公众访问在经济上不可行。对齐和安全方面的开销同样巨大；确保 Sora 不生成暴力、露骨或误导性内容，需要持续的人类反馈强化学习（RLHF）和分类器引导的扩散过程，这进一步增加了计算的复杂性。

| 模型组件 | 计算成本（训练） | 推理延迟（60秒片段） | 关键创新 |
|---|---|---|---|
| Sora (基于 DiT) | ~10,000-100,000 GPU-月（估计） | 10-20 分钟（估计） | 时空片段，叙事连贯性 |
| Stable Video Diffusion | ~5,000 GPU-月 | 1-2 分钟 | 图像到视频微调，开放权重 |
| Runway Gen-2 | 未披露 | < 1 分钟 | 循环架构，实时编辑 |
| Pika 1.0 | 未披露 | 30-45 秒 | 混合 CNN-Transformer，风格一致性 |

数据启示： 上表揭示了 Sora 巨大的技术开销。与更务实、更注重商业化的竞争对手相比，其卓越的输出质量直接与高出数个数量级的训练和推理成本相关。这种成本与质量的权衡，很可能是其被终止的主要原因。

一个探索更高效视频生成的相关开源项目是 VideoCrafter（GitHub: `AI-Video-Lab/VideoCrafter`）。该仓库提供了一个用于基于扩散的视频模型训练和推理的工具包，重点在于改善时间一致性和降低计算需求。其日益增长的人气（超过 8k star）凸显了社区对更易获取的视频 AI 的推动，这与 Sora 封闭、资源密集型的路径形成了鲜明对比。

关键参与者与案例研究

Sora 的关闭立即重塑了竞争格局。凭借其 Gen-2 和近期发布的 Gen-3 模型，Runway ML 现已成为高保真 AI 视频领域事实上的技术领导者。Runway 的策略明显不同：迭代式公开发布、专注于电影制作人和艺术家的工具、以及可行的基于订阅的商业模式（Runway Studio）。他们的架构优先考虑更快的推理和用户可控的编辑，为了实用价值而牺牲了 Sora 的部分叙事广度。

Stability AI 及其开源的 Stable Video Diffusion（SVD）模型，代表了民主化的一极。虽然 SVD 的输出质量落后于 Sora 的巅峰水平，但其开放的权重已经催生了一个针对特定用例（产品视频、动漫等）的微调模型生态系统。这种社区驱动、模块化的方法从长远来看可能更具韧性和创新性。

Pika Labs 凭借用户友好、风格一致的视频生成开辟了一片利基市场，强烈吸引着社交媒体创作者和营销人员。他们近期的 Pika 1.0 模型和大量融资，使其有能力抢占大众市场短视频领域。

与此同时，OpenAI 的转向是朝着其支持的 Figure AI 等实体，以及其内部的 o1 和 Q* 研究方向。目标不再是生成一段机器人煮咖啡的视频，而是构建一个能让真实机器人规划并执行该任务的世界模型。像 Yann LeCun 这样的研究人员长期以来一直倡导这种“目标驱动”的 AI，认为生成模型只是一种表层能力。OpenAI 的首席科学家 Ilya Sutskever 同样强调推理能力和可靠性的首要地位，而非生成的广度。Sora 的关闭，正是这种哲学转变在内部战略辩论中获胜的具体体现。

| 公司/项目 | Sora 之后的核心焦点 | 商业模式 | 战略优势 |
|---|---|---|---|
| OpenAI (新焦点) | 世界模型 / AI 智能体 | API 费用，企业授权 | 研究深度，资本储备 |
| Runway ML | 专业视频生成 | SaaS 订阅（Runway Studio） | 行业立足点，艺术家社区 |
| Stability AI | 开源视频模型生态 | 企业服务，开发者工具 | 社区驱动，模块化创新 |
| Pika Labs | 大众市场短视频生成 | 订阅服务，潜在广告 | 用户体验，风格化输出 |
| Figure AI (关联) | 具身 AI 与机器人 | 机器人即服务，企业解决方案 | 与 OpenAI 战略协同，物理世界交互 |

延伸阅读

常见问题

这次模型发布“OpenAI Shuts Down Sora: The Strategic Pivot from Video Generation to World Models”的核心内容是什么？

OpenAI has officially discontinued Sora, its flagship text-to-video generation model that once set the benchmark for AI-simulated visual narratives. The decision, framed internally…

从“Why did OpenAI really shut down Sora?”看，这个模型发布为什么重要？

Sora's technical architecture represented a masterful synthesis of two dominant paradigms: the visual fidelity of diffusion models and the scalable context handling of transformers. At its core, Sora operated on a "space…

围绕“What is the computational cost of running Sora vs Runway?”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。