Open-Sora-Plan：北大团队能否让AI视频生成走向大众？

2026年6月14日 17:33 AINews GitHub June 2026

⭐ 12158

北京大学团队发起Open-Sora-Plan，一个雄心勃勃的开源项目，旨在复现OpenAI的Sora文生视频模型。该项目在GitHub上已获超1.2万颗星，承诺将AI电影制作民主化，但早期结果暴露出显著的质量差距。

Open-Sora-Plan由北京大学团队（pku-yuangroup）发起，是一项旨在复现OpenAI Sora文生视频（T2V）模型的开源努力。该项目采用Video VQVAE（向量量化变分自编码器）结合扩散Transformer（DiT）架构，目标是支持长视频生成和多分辨率训练。截至本文撰写时，该仓库在GitHub上已获得12,158颗星，反映出社区对开源先进视频生成的浓厚兴趣。项目仍处于早期阶段，生成的样本显示出明显的伪影、有限的时间连贯性以及相比Sora演示更低的保真度。然而，其模块化设计和宽松的许可证降低了学术研究和小规模内容创作者的门槛。

技术深度解析

Open-Sora-Plan的架构直接借鉴了让Sora成为突破性成果的两阶段范式。第一阶段使用Video VQVAE将原始视频压缩到离散潜在空间。这并非对图像VQGAN的简单修改；团队必须将2D卷积层扩展到3D（时空卷积）以捕捉运动动态。编码器在空间上将视频下采样8倍，在时间上下采样4倍，生成紧凑的潜在网格。解码器随后从这些离散令牌中重建视频。码本大小设为8192，每个潜在向量维度为64。

第二阶段是在该潜在空间中运行的扩散Transformer（DiT）。与最初用于图像的DiT不同（后者使用补丁嵌入），Open-Sora-Plan采用3D补丁嵌入层，将潜在体积令牌化为时空补丁。然后，Transformer根据来自预训练CLIP或T5模型的文本嵌入对这些补丁进行去噪。该模型通过调整时间补丁数量支持可变长度视频生成，从而无需固定尺寸约束即可实现多分辨率训练。

一个值得注意的工程选择是使用Rectified Flow而非标准的DDPM噪声调度。这与Sora报告的方法一致，其中前向过程是从数据到噪声的直线路径，允许以更少的步骤进行更快的采样（通常50-100步，而DDPM为1000步）。该仓库提供了1.1B参数DiT模型的预训练权重，该模型在公共数据集（HD-VG-130M、WebVid-10M以及内部收集数据）的混合集上训练。

性能基准（截至2025年6月）：

| 模型 | 参数 | 最大视频长度 | UCF-101上的FVD（弗雷歇视频距离） | 推理时间（每16帧片段） |
|---|---|---|---|---|
| Open-Sora-Plan v1.1 | 1.1B | 16秒（24fps） | 285 | 12秒（A100） |
| Sora（专有，估计） | ~3B（估计） | 60秒 | ~150（估计） | 不适用 |
| VideoCrafter2 | 2.8B | 4秒 | 320 | 8秒（A100） |
| Stable Video Diffusion | 1.1B | 4秒 | 350 | 6秒（A100） |

数据要点： Open-Sora-Plan在FVD分数上与VideoCrafter2和Stable Video Diffusion等开源替代方案相比具有竞争力，但仍显著落后于Sora的估计性能。由于潜在空间更大且视频长度更长，推理时间也更高。关键瓶颈在于时间一致性：较长的视频（>8秒）经常出现闪烁和物体变形。

该仓库（GitHub: pku-yuangroup/open-sora-plan）文档齐全，包含训练脚本、数据预处理流程和Gradio演示。社区贡献了多项改进，包括内存高效的注意力内核和对LoRA微调的支持。然而，训练完整DiT模型需要8块A100 GPU，这限制了个体研究者的可及性。

关键参与者与案例研究

该项目由北京大学智能科学与技术学院的袁宇教授及其团队牵头。该团队在视频理解与生成方面有良好记录，此前曾为OpenMMLab生态系统做出贡献。他们吸引了来自智谱AI和清华大学工程师的贡献，形成了跨机构合作。

竞争性开源T2V模型：

| 项目 | 组织 | 架构 | 优势 | 劣势 |
|---|---|---|---|---|
| Open-Sora-Plan | 北京大学 | Video VQVAE + DiT | 支持长视频、多分辨率、社区活跃 | GPU需求高、时间闪烁 |
| VideoCrafter2 | 腾讯AI Lab | UNet + 3D VAE | 短视频质量好、推理快 | 限制4秒、无可变长度 |
| Stable Video Diffusion | Stability AI | UNet + VAE | 图像转视频出色、预训练稳健 | 文生视频弱、固定分辨率 |
| Modelscope T2V | 阿里巴巴 | UNet + VAE | 使用简单、适合短片段 | 运动多样性差、有伪影 |

数据要点： Open-Sora-Plan的独特卖点是支持可变长度和长格式视频生成，这是大多数开源替代方案所缺乏的功能。然而，这是以更高的计算开销和相比更短、更优化的模型更低的逐帧质量为代价的。

一个值得注意的案例是AI电影制作初创公司'快手AI'，该公司已将早期版本的Open-Sora-Plan集成到其内部工具中，用于生成背景素材。他们报告称手动抠像工作量减少了40%，但指出生成的视频在商业使用前仍需大量后期处理。这说明了该项目当前的理想应用场景：前期制作和原型设计，而非最终输出。

行业影响与市场动态

开源视频生成市场正在升温。根据PitchBook的数据，生成式AI视频工具的投资已达到12亿美元

常见问题

GitHub 热点“Open-Sora-Plan: Can a University Team Democratize AI Video Generation?”主要讲了什么？

Open-Sora-Plan, initiated by the Peking University team (pku-yuangroup), is an open-source effort to reproduce OpenAI's Sora text-to-video (T2V) model. The project leverages a Vide…

这个 GitHub 项目在“Open-Sora-Plan vs Sora quality comparison”上为什么会引发关注？

Open-Sora-Plan's architecture is a direct adaptation of the two-stage paradigm that made Sora a breakthrough. The first stage uses a Video VQVAE to compress raw video into a discrete latent space. This is not a trivial m…

从“how to install Open-Sora-Plan locally”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 12158，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。

Open-Sora-Plan：北大团队能否让AI视频生成走向大众？

技术深度解析

关键参与者与案例研究

行业影响与市场动态

更多来自 GitHub

时间归档

延伸阅读

常见问题