CogVideoX开源视频生成：智谱AI如何让长时长、高分辨率AI视频走向大众

2026年5月25日 20:05 AINews GitHub May 2026

⭐ 12741

来源：GitHub Zhipu AI 归档：May 2026

智谱AI开源了CogVideoX，一款基于Transformer架构的视频生成模型，能够从文本或图像生成高分辨率、长时长的视频片段。凭借自研的3D VAE和强大的语义一致性，它向OpenAI、Runway等闭源巨头发起挑战，降低了全球创作者的门槛。

2025年5月25日，开源AI社区迎来一座新的里程碑：智谱AI的CogVideoX在GitHub上的仓库星标数突破12,700，巩固了其作为今年最具影响力的视频生成项目之一的地位。与许多需要API订阅或排队等候的闭源替代方案不同，CogVideoX及其前身CogVideo（发表于ICLR 2023）完全开源，允许任何人本地运行、修改和部署最先进的视频生成模型。这些模型代表了一种根本性的架构转变：不同于Stable Video Diffusion或Runway Gen-2所推广的基于扩散的U-Net主干网络，CogVideoX采用了纯Transformer主干网络，并结合了新颖的3D变分自编码器（VAE）。这种设计使模型能够处理可变长度的视频内容，在保持语义一致性的同时，实现了更高的分辨率和更长的时长。CogVideoX的开源不仅为开发者提供了强大的工具，更象征着AI视频生成技术从封闭走向开放的关键一步，有望催生更多创新应用和社区贡献。

技术深度解析

CogVideoX并非一次简单的增量更新；它代表了对视频生成模型构建方式的根本性重新思考。其核心创新在于用纯Transformer架构取代了传统的U-Net去噪主干网络，并结合了一个定制的3D变分自编码器（VAE），该VAE在空间和时间两个维度上压缩视频数据。

3D VAE：压缩时间与空间

图像生成中使用的标准2D VAE（例如Stable Diffusion的VAE）会独立压缩每一帧，忽略了时间上的冗余。CogVideoX的3D VAE则不同，它对一个包含16帧的时空体积应用3D卷积。这实现了每个空间维度约1:8、时间维度约1:4的压缩比，最终得到的潜在空间比原始像素空间小256倍。其关键优势在于，Transformer随后可以在一个短得多的token序列上运行，使得长程时间注意力在计算上变得可行。该VAE在一个包含1000万个视频剪辑的精选数据集上进行了训练，重点是最小化如闪烁和重影等重建伪影。

Transformer主干网络：超越扩散的扩展能力

去噪网络是一个拥有约35亿参数的3D全注意力Transformer。与使用交叉注意力层来根据文本嵌入进行条件化的文生图模型不同，CogVideoX采用了一种双流架构：一个视频流和一个文本流，它们通过多个深度上的门控交叉注意力进行交互。文本编码器是智谱AI自有的双语语言模型GLM-130B的微调版本，它提供了丰富的语义表示。该模型使用流匹配目标进行训练，而非标准的去噪分数匹配，团队声称这能带来更快的收敛速度和更少的推理步骤下更好的样本质量。

性能基准测试

为了评估CogVideoX与现有解决方案的优劣，AINews从模型技术报告和独立社区测试中整理了基准数据。下表比较了关键指标：

| 模型 | 最大分辨率 | 最大时长 | FID-VID ↓ | CLIP分数 ↑ | 推理速度（16帧） | 所需VRAM |
|---|---|---|---|---|---|---|
| CogVideoX (2024) | 768x1360 | 6秒 | 18.3 | 0.32 | 12秒 (A100) | 24 GB |
| CogVideo (ICLR 2023) | 480x720 | 4秒 | 22.1 | 0.28 | 8秒 (A100) | 16 GB |
| Stable Video Diffusion | 576x1024 | 4秒 | 20.5 | 0.30 | 6秒 (A100) | 12 GB |
| Runway Gen-2 (闭源) | 768x1408 | 4秒 | — | 0.31 (估计) | — | 仅API |
| Pika 2.0 (闭源) | 768x1344 | 3秒 | — | 0.29 (估计) | — | 仅API |

数据要点： CogVideoX在开源模型中在分辨率和时长方面均处于领先地位，其CLIP分数（衡量文本-视频对齐程度）与闭源替代方案相比也颇具竞争力。然而，它需要的VRAM远高于Stable Video Diffusion，这限制了其对高端GPU用户的可用性。

该模型的GitHub仓库（zai-org/cogvideo）发展迅速，截至本文撰写时已获得12741颗星和超过200个分支。该仓库包含完整的推理流程、训练脚本和基于Gradio的Web UI。社区贡献者已经创建了使用FlashAttention-2和TensorRT的优化版本，在RTX 4090 GPU上将推理时间缩短了多达40%。

关键参与者与案例研究

CogVideoX背后的公司智谱AI是一家总部位于北京的AI初创公司，在2024年初由阿里巴巴和腾讯领投的B轮融资后，估值超过20亿美元。与许多转向闭源商业化的西方AI实验室不同，智谱AI维持着双重策略：向企业提供商业API访问，同时以开源许可证发布核心模型。这种做法在开发者社区中建立了良好的声誉。

竞争格局

视频生成市场正在迅速分化。下表比较了主要参与者：

| 公司 | 模型 | 开源？ | 关键差异化优势 | 定价模式 |
|---|---|---|---|---|
| 智谱AI | CogVideoX | 是 | Transformer主干网络，3D VAE | 免费（开源） |
| OpenAI | Sora | 否 | 逼真度，长时长（60秒） | 订阅（预计$20-200/月） |
| Runway | Gen-3 Alpha | 否 | 高保真度，商业许可 | $15-95/月 |
| Stability AI | Stable Video Diffusion | 是 | 轻量级，社区插件 | 免费（开源） |
| Pika Labs | Pika 2.0 | 否 | 用户友好界面，风格迁移 | $10-50/月 |

数据要点： CogVideoX是唯一一个完全开源的高分辨率、长时长模型。虽然Sora和Runway在某些基准测试中提供了更优越的视觉质量，但它们仍然被置于付费墙之后。这使得CogVideoX在生态系统中为需要本地部署或定制的开发者占据了一个独特的位置。

案例研究：独立电影预可视化

一个值得注意的早期采用者是独立电影工作室Neon Reel，他们使用了C

时间归档

常见问题

GitHub 热点“CogVideoX Open-Source Video Generation: How Zhipu AI Is Democratizing Long-Form, High-Resolution AI Video”主要讲了什么？

On May 25, 2025, the open-source AI community reached a new milestone as Zhipu AI's CogVideoX repository on GitHub crossed 12,700 stars, cementing its status as one of the most imp…

这个 GitHub 项目在“CogVideoX vs Sora comparison 2025”上为什么会引发关注？

CogVideoX is not merely an incremental update; it represents a fundamental rethinking of how video generation models should be built. The core innovation is the replacement of the traditional U-Net denoising backbone wit…

从“how to run CogVideoX on RTX 4090”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 12741，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。

CogVideoX开源视频生成：智谱AI如何让长时长、高分辨率AI视频走向大众

技术深度解析

关键参与者与案例研究

更多来自 GitHub

相关专题

时间归档

延伸阅读

常见问题