Open-Sora-Plan:北大团队能否让AI视频生成走向大众?

GitHub June 2026
⭐ 12158
来源:GitHub归档:June 2026
北京大学团队发起Open-Sora-Plan,一个雄心勃勃的开源项目,旨在复现OpenAI的Sora文生视频模型。该项目在GitHub上已获超1.2万颗星,承诺将AI电影制作民主化,但早期结果暴露出显著的质量差距。

Open-Sora-Plan由北京大学团队(pku-yuangroup)发起,是一项旨在复现OpenAI Sora文生视频(T2V)模型的开源努力。该项目采用Video VQVAE(向量量化变分自编码器)结合扩散Transformer(DiT)架构,目标是支持长视频生成和多分辨率训练。截至本文撰写时,该仓库在GitHub上已获得12,158颗星,反映出社区对开源先进视频生成的浓厚兴趣。项目仍处于早期阶段,生成的样本显示出明显的伪影、有限的时间连贯性以及相比Sora演示更低的保真度。然而,其模块化设计和宽松的许可证降低了学术研究和小规模内容创作者的门槛。

技术深度解析

Open-Sora-Plan的架构直接借鉴了让Sora成为突破性成果的两阶段范式。第一阶段使用Video VQVAE将原始视频压缩到离散潜在空间。这并非对图像VQGAN的简单修改;团队必须将2D卷积层扩展到3D(时空卷积)以捕捉运动动态。编码器在空间上将视频下采样8倍,在时间上下采样4倍,生成紧凑的潜在网格。解码器随后从这些离散令牌中重建视频。码本大小设为8192,每个潜在向量维度为64。

第二阶段是在该潜在空间中运行的扩散Transformer(DiT)。与最初用于图像的DiT不同(后者使用补丁嵌入),Open-Sora-Plan采用3D补丁嵌入层,将潜在体积令牌化为时空补丁。然后,Transformer根据来自预训练CLIP或T5模型的文本嵌入对这些补丁进行去噪。该模型通过调整时间补丁数量支持可变长度视频生成,从而无需固定尺寸约束即可实现多分辨率训练。

一个值得注意的工程选择是使用Rectified Flow而非标准的DDPM噪声调度。这与Sora报告的方法一致,其中前向过程是从数据到噪声的直线路径,允许以更少的步骤进行更快的采样(通常50-100步,而DDPM为1000步)。该仓库提供了1.1B参数DiT模型的预训练权重,该模型在公共数据集(HD-VG-130M、WebVid-10M以及内部收集数据)的混合集上训练。

性能基准(截至2025年6月):

| 模型 | 参数 | 最大视频长度 | UCF-101上的FVD(弗雷歇视频距离) | 推理时间(每16帧片段) |
|---|---|---|---|---|
| Open-Sora-Plan v1.1 | 1.1B | 16秒(24fps) | 285 | 12秒(A100) |
| Sora(专有,估计) | ~3B(估计) | 60秒 | ~150(估计) | 不适用 |
| VideoCrafter2 | 2.8B | 4秒 | 320 | 8秒(A100) |
| Stable Video Diffusion | 1.1B | 4秒 | 350 | 6秒(A100) |

数据要点: Open-Sora-Plan在FVD分数上与VideoCrafter2和Stable Video Diffusion等开源替代方案相比具有竞争力,但仍显著落后于Sora的估计性能。由于潜在空间更大且视频长度更长,推理时间也更高。关键瓶颈在于时间一致性:较长的视频(>8秒)经常出现闪烁和物体变形。

该仓库(GitHub: pku-yuangroup/open-sora-plan)文档齐全,包含训练脚本、数据预处理流程和Gradio演示。社区贡献了多项改进,包括内存高效的注意力内核和对LoRA微调的支持。然而,训练完整DiT模型需要8块A100 GPU,这限制了个体研究者的可及性。

关键参与者与案例研究

该项目由北京大学智能科学与技术学院的袁宇教授及其团队牵头。该团队在视频理解与生成方面有良好记录,此前曾为OpenMMLab生态系统做出贡献。他们吸引了来自智谱AI清华大学工程师的贡献,形成了跨机构合作。

竞争性开源T2V模型:

| 项目 | 组织 | 架构 | 优势 | 劣势 |
|---|---|---|---|---|
| Open-Sora-Plan | 北京大学 | Video VQVAE + DiT | 支持长视频、多分辨率、社区活跃 | GPU需求高、时间闪烁 |
| VideoCrafter2 | 腾讯AI Lab | UNet + 3D VAE | 短视频质量好、推理快 | 限制4秒、无可变长度 |
| Stable Video Diffusion | Stability AI | UNet + VAE | 图像转视频出色、预训练稳健 | 文生视频弱、固定分辨率 |
| Modelscope T2V | 阿里巴巴 | UNet + VAE | 使用简单、适合短片段 | 运动多样性差、有伪影 |

数据要点: Open-Sora-Plan的独特卖点是支持可变长度和长格式视频生成,这是大多数开源替代方案所缺乏的功能。然而,这是以更高的计算开销和相比更短、更优化的模型更低的逐帧质量为代价的。

一个值得注意的案例是AI电影制作初创公司'快手AI',该公司已将早期版本的Open-Sora-Plan集成到其内部工具中,用于生成背景素材。他们报告称手动抠像工作量减少了40%,但指出生成的视频在商业使用前仍需大量后期处理。这说明了该项目当前的理想应用场景:前期制作和原型设计,而非最终输出。

行业影响与市场动态

开源视频生成市场正在升温。根据PitchBook的数据,生成式AI视频工具的投资已达到12亿美元

更多来自 GitHub

PostHog分析插件:轻量集成还是小众陷阱?`metro-fs/analytics-plugin-posthog` 是一款专用适配器,将通用的 `analytics` JavaScript 库连接到 PostHog 的事件采集管道。其核心价值在于抽象化:开发者只需针对 AnalytiRobot Framework 门户:测试自动化生态系统中被低估的枢纽Robot Framework 生态系统门户(托管于 robotframework.github.com)并非核心框架本身,而是其庞大社区的官方入口。该仓库每日获得 84 个 GitHub Star,增长率稳定在 +0,是一个聚合了用户指南Cloudflare ImageBed:一个无服务器GitHub项目如何重塑个人云存储marseventh/cloudflare-imgbed 项目代表了个人及小团队文件托管领域的一次范式转变。通过充分利用Cloudflare的边缘计算平台——Workers负责计算,R2负责对象存储——它在消除服务器成本的同时,提供了高可用查看来源专题页GitHub 已收录 2629 篇文章

时间归档

June 20261316 篇已发布文章

延伸阅读

Meta DiT:Transformer架构如何重塑扩散模型的未来Meta开源的扩散Transformer(DiT)项目,标志着生成式AI迎来了一次根本性的架构变革。它用纯Transformer取代了扩散模型传统的卷积U-Net主干,展现出前所未有的可扩展性——模型性能随参数和计算量增加而可预测地提升。此PostHog分析插件:轻量集成还是小众陷阱?一款面向Analytics框架的开源PostHog插件,声称能通过标准化接口简化用户行为追踪。但社区活跃度低、依赖小众父库,它究竟是真正的效率提升工具,还是维护负担?AINews深入调查。Robot Framework 门户:测试自动化生态系统中被低估的枢纽作为最受欢迎的开源测试自动化框架之一的中枢神经系统,Robot Framework 生态系统门户仓库低调却至关重要。AINews 深入剖析其角色、技术架构,以及它如何揭示软件测试的未来走向。Cloudflare ImageBed:一个无服务器GitHub项目如何重塑个人云存储一个名为 marseventh/cloudflare-imgbed 的开源新星正在GitHub上迅速崛起,已斩获超过5300颗星,且每日增长势头不减。它借助Cloudflare Workers和R2存储,实现了零成本、全球加速的文件托管与个

常见问题

GitHub 热点“Open-Sora-Plan: Can a University Team Democratize AI Video Generation?”主要讲了什么?

Open-Sora-Plan, initiated by the Peking University team (pku-yuangroup), is an open-source effort to reproduce OpenAI's Sora text-to-video (T2V) model. The project leverages a Vide…

这个 GitHub 项目在“Open-Sora-Plan vs Sora quality comparison”上为什么会引发关注?

Open-Sora-Plan's architecture is a direct adaptation of the two-stage paradigm that made Sora a breakthrough. The first stage uses a Video VQVAE to compress raw video into a discrete latent space. This is not a trivial m…

从“how to install Open-Sora-Plan locally”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 12158,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。