CogVideoX开源视频生成:智谱AI如何让长时长、高分辨率AI视频走向大众

GitHub May 2026
⭐ 12741
来源:GitHubZhipu AI归档:May 2026
智谱AI开源了CogVideoX,一款基于Transformer架构的视频生成模型,能够从文本或图像生成高分辨率、长时长的视频片段。凭借自研的3D VAE和强大的语义一致性,它向OpenAI、Runway等闭源巨头发起挑战,降低了全球创作者的门槛。

2025年5月25日,开源AI社区迎来一座新的里程碑:智谱AI的CogVideoX在GitHub上的仓库星标数突破12,700,巩固了其作为今年最具影响力的视频生成项目之一的地位。与许多需要API订阅或排队等候的闭源替代方案不同,CogVideoX及其前身CogVideo(发表于ICLR 2023)完全开源,允许任何人本地运行、修改和部署最先进的视频生成模型。这些模型代表了一种根本性的架构转变:不同于Stable Video Diffusion或Runway Gen-2所推广的基于扩散的U-Net主干网络,CogVideoX采用了纯Transformer主干网络,并结合了新颖的3D变分自编码器(VAE)。这种设计使模型能够处理可变长度的视频内容,在保持语义一致性的同时,实现了更高的分辨率和更长的时长。CogVideoX的开源不仅为开发者提供了强大的工具,更象征着AI视频生成技术从封闭走向开放的关键一步,有望催生更多创新应用和社区贡献。

技术深度解析

CogVideoX并非一次简单的增量更新;它代表了对视频生成模型构建方式的根本性重新思考。其核心创新在于用纯Transformer架构取代了传统的U-Net去噪主干网络,并结合了一个定制的3D变分自编码器(VAE),该VAE在空间和时间两个维度上压缩视频数据。

3D VAE:压缩时间与空间

图像生成中使用的标准2D VAE(例如Stable Diffusion的VAE)会独立压缩每一帧,忽略了时间上的冗余。CogVideoX的3D VAE则不同,它对一个包含16帧的时空体积应用3D卷积。这实现了每个空间维度约1:8、时间维度约1:4的压缩比,最终得到的潜在空间比原始像素空间小256倍。其关键优势在于,Transformer随后可以在一个短得多的token序列上运行,使得长程时间注意力在计算上变得可行。该VAE在一个包含1000万个视频剪辑的精选数据集上进行了训练,重点是最小化如闪烁和重影等重建伪影。

Transformer主干网络:超越扩散的扩展能力

去噪网络是一个拥有约35亿参数的3D全注意力Transformer。与使用交叉注意力层来根据文本嵌入进行条件化的文生图模型不同,CogVideoX采用了一种双流架构:一个视频流和一个文本流,它们通过多个深度上的门控交叉注意力进行交互。文本编码器是智谱AI自有的双语语言模型GLM-130B的微调版本,它提供了丰富的语义表示。该模型使用流匹配目标进行训练,而非标准的去噪分数匹配,团队声称这能带来更快的收敛速度和更少的推理步骤下更好的样本质量。

性能基准测试

为了评估CogVideoX与现有解决方案的优劣,AINews从模型技术报告和独立社区测试中整理了基准数据。下表比较了关键指标:

| 模型 | 最大分辨率 | 最大时长 | FID-VID ↓ | CLIP分数 ↑ | 推理速度(16帧) | 所需VRAM |
|---|---|---|---|---|---|---|
| CogVideoX (2024) | 768x1360 | 6秒 | 18.3 | 0.32 | 12秒 (A100) | 24 GB |
| CogVideo (ICLR 2023) | 480x720 | 4秒 | 22.1 | 0.28 | 8秒 (A100) | 16 GB |
| Stable Video Diffusion | 576x1024 | 4秒 | 20.5 | 0.30 | 6秒 (A100) | 12 GB |
| Runway Gen-2 (闭源) | 768x1408 | 4秒 | — | 0.31 (估计) | — | 仅API |
| Pika 2.0 (闭源) | 768x1344 | 3秒 | — | 0.29 (估计) | — | 仅API |

数据要点: CogVideoX在开源模型中在分辨率和时长方面均处于领先地位,其CLIP分数(衡量文本-视频对齐程度)与闭源替代方案相比也颇具竞争力。然而,它需要的VRAM远高于Stable Video Diffusion,这限制了其对高端GPU用户的可用性。

该模型的GitHub仓库(zai-org/cogvideo)发展迅速,截至本文撰写时已获得12741颗星和超过200个分支。该仓库包含完整的推理流程、训练脚本和基于Gradio的Web UI。社区贡献者已经创建了使用FlashAttention-2和TensorRT的优化版本,在RTX 4090 GPU上将推理时间缩短了多达40%。

关键参与者与案例研究

CogVideoX背后的公司智谱AI是一家总部位于北京的AI初创公司,在2024年初由阿里巴巴和腾讯领投的B轮融资后,估值超过20亿美元。与许多转向闭源商业化的西方AI实验室不同,智谱AI维持着双重策略:向企业提供商业API访问,同时以开源许可证发布核心模型。这种做法在开发者社区中建立了良好的声誉。

竞争格局

视频生成市场正在迅速分化。下表比较了主要参与者:

| 公司 | 模型 | 开源? | 关键差异化优势 | 定价模式 |
|---|---|---|---|---|
| 智谱AI | CogVideoX | 是 | Transformer主干网络,3D VAE | 免费(开源) |
| OpenAI | Sora | 否 | 逼真度,长时长(60秒) | 订阅(预计$20-200/月) |
| Runway | Gen-3 Alpha | 否 | 高保真度,商业许可 | $15-95/月 |
| Stability AI | Stable Video Diffusion | 是 | 轻量级,社区插件 | 免费(开源) |
| Pika Labs | Pika 2.0 | 否 | 用户友好界面,风格迁移 | $10-50/月 |

数据要点: CogVideoX是唯一一个完全开源的高分辨率、长时长模型。虽然Sora和Runway在某些基准测试中提供了更优越的视觉质量,但它们仍然被置于付费墙之后。这使得CogVideoX在生态系统中为需要本地部署或定制的开发者占据了一个独特的位置。

案例研究:独立电影预可视化

一个值得注意的早期采用者是独立电影工作室Neon Reel,他们使用了C

更多来自 GitHub

DayDreamer:让机器人靠“想象”学习,但硬件门槛仍是拦路虎DayDreamer是一个开源框架,将世界模型——Dreamer算法家族的核心概念——应用于真实世界的机器人学习。机器人无需进行数千次真实试验,而是构建其环境的内部模型,并“在想象中”练习动作,然后将经验迁移到物理硬件上。该项目由GooglPlausible Analytics:开源隐私革命如何重塑网站追踪格局Plausible Analytics 已成为 Google Analytics 最具代表性的开源、隐私优先替代方案,GitHub 星标数突破 26,000,用户基数快速增长。该平台彻底摒弃 Cookie,采用不足 1KB 的轻量级脚本,在无标题CodeWhale, launched under the handle hmbown/codewhale, has become one of the fastest-growing developer tools of 2025. It查看来源专题页GitHub 已收录 2203 篇文章

相关专题

Zhipu AI23 篇相关文章

时间归档

May 20262737 篇已发布文章

延伸阅读

GLM-130B:中国开源1300亿参数双语模型,正面挑战GPT-3霸权智谱AI与清华KEG联合推出的GLM-130B,一个拥有1300亿参数的中英双语开源模型,已悄然成为美国之外最具影响力的大语言模型之一。其独特的自回归空白填充训练范式与面向学术研究的完整权重开放,正在挑战闭源巨头的统治地位。空仓库暗藏玄机:Mistral AI 神秘 GitHub 项目 prowes/formtv 预示视频生成新棋局一个名为 prowes/formtv 的空白 GitHub 仓库悄然出现在 Mistral AI 组织下,零代码、零星标,仅指向官方 Python 客户端。AINews 独家解析这一神秘占位符背后可能隐藏的产品战略,以及它对 AI 视频生成CodeGeeX4-ALL-9B:一个模型,能否终结你的整个开发工具链?智谱AI发布开源模型CodeGeeX4-ALL-9B,将五种截然不同的开发者工作流压缩进一个90亿参数的架构中。AINews深入探究:这种大一统究竟是真正的突破,还是“样样通,样样松”的妥协?HeyGen推出Hyperframes:以HTML转视频引擎,驱动下一代AI智能体革命AI视频合成公司HeyGen正式发布Hyperframes,这是一款面向开发者的核心工具,能够将HTML、CSS和JavaScript代码直接渲染为视频帧。它被定位为AI智能体的基础架构,实现了程序化、大规模的视频生成,标志着视频创作从手动

常见问题

GitHub 热点“CogVideoX Open-Source Video Generation: How Zhipu AI Is Democratizing Long-Form, High-Resolution AI Video”主要讲了什么?

On May 25, 2025, the open-source AI community reached a new milestone as Zhipu AI's CogVideoX repository on GitHub crossed 12,700 stars, cementing its status as one of the most imp…

这个 GitHub 项目在“CogVideoX vs Sora comparison 2025”上为什么会引发关注?

CogVideoX is not merely an incremental update; it represents a fundamental rethinking of how video generation models should be built. The core innovation is the replacement of the traditional U-Net denoising backbone wit…

从“how to run CogVideoX on RTX 4090”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 12741,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。