CodeGeeX：开源代码模型，能否让AI编程真正走向大众？

CodeGeeX，作为一篇在KDD 2023上亮相的开源代码生成模型，基于智谱AI自主研发的GLM（通用语言模型）架构构建。它支持超过20种编程语言的代码补全、翻译与生成，涵盖Python、C++、Java、JavaScript和Go等主流语言。该模型采用宽松许可证完全开源，其API也免费提供，使其成为GitHub Copilot等付费服务或闭源模型的一个极具吸引力的替代方案。凭借超过8700个GitHub星标且数量与日俱增，CodeGeeX已吸引了一个由开发者和研究者组成的活跃社区。其重要性不仅在于技术能力，更在于其使命：让AI驱动的编程工具普惠大众，特别是那些订阅成本高昂地区的开发者。

技术深度解析

CodeGeeX基于智谱AI开发的GLM（通用语言模型）架构构建，该框架融合了自回归模型与自编码模型的优势。与仅使用从左到右注意力机制的GPT风格模型不同，GLM对掩码片段采用双向注意力机制，对未掩码文本则采用自回归生成。这种混合方法使CodeGeeX能够更好地理解代码上下文——在代码中，依赖关系往往同时向前和向后流动——同时仍能生成连贯的序列。

该模型在来自公共代码仓库（包括GitHub）的135亿个token语料库上进行了训练，重点聚焦于高质量、宽松许可的代码。它使用了一个130亿参数的密集Transformer，与GPT-4（估计1.8万亿参数）等模型相比相对较小，但在开源产品中仍属可观。训练过程动用了384块NVIDIA A100 GPU，历时60天，这是一笔重大但并非不可承受的投资。

CodeGeeX的突出特性之一是其对超过20种编程语言的支持。该模型采用语言平衡采样策略进行训练，以防止Python等主流语言压倒Rust或Haskell等较冷门语言。这使得模型在不同语言上的性能表现更加均衡。

基准测试表现

| 模型 | 参数规模 | HumanEval Pass@1 | MBPP Pass@1 | MultiPL-E (平均) | 支持语言数 |
|---|---|---|---|---|---|
| CodeGeeX | 13B | 22.4% | 45.6% | 18.3% | 20+ |
| CodeLlama-13B | 13B | 32.0% | 52.7% | 24.5% | 20+ |
| StarCoder-15B | 15B | 33.6% | 52.2% | 25.8% | 80+ |
| GPT-3.5-Turbo | ~175B (估) | 72.0% | 81.0% | 65.0% | 50+ |
| GitHub Copilot (Codex) | ~12B | 28.8% | 43.0% | 20.1% | 12+ |

数据要点： 在标准基准测试中，CodeGeeX落后CodeLlama和StarCoder约8-10个百分点，但在HumanEval上超越了驱动GitHub Copilot的原始Codex模型。这表明，尽管CodeGeeX并非最先进水平，但对于其规模而言已具备竞争力，并且考虑到其开源和免费API的特性，表现尤为亮眼。

该模型的架构还支持一种独特的“跨语言代码翻译”模式，能够在保留语义的同时，将代码从一种语言翻译成另一种语言。这是通过一种特殊的训练目标实现的，该目标将不同语言中等价的代码片段配对。早期测试显示，它在常见语言对（如Python到Java，JavaScript到TypeScript）的翻译上表现良好，但在处理更冷门的组合（如Fortran到Rust）时则较为吃力。

关键参与者与案例研究

CodeGeeX由智谱AI（北京，中国）开发，该公司由清华大学的研究人员创立。智谱AI已将自己定位为中国领先的AI实验室之一，专注于开源模型和研究。该项目还涉及北京智源人工智能研究院（BAAI）及其他学术机构的合作者。首席研究员杜正潇博士一直是中国开源AI的积极倡导者，他认为这为新兴市场的开发者创造了公平的竞争环境。

竞争格局

| 产品 | 公司 | 开源 | 免费API | 支持语言数 | 定价模式 |
|---|---|---|---|---|---|
| CodeGeeX | 智谱AI | 是 | 是 | 20+ | 免费 |
| GitHub Copilot | 微软/GitHub | 否 | 否（有试用） | 12+ | 10–39美元/月 |
| Amazon CodeWhisperer | 亚马逊 | 否 | 是（个人版） | 15+ | 免费（个人版） |
| CodeLlama | Meta | 是 | 否（需自托管） | 20+ | 免费（需自托管） |
| StarCoder | Hugging Face | 是 | 否（需自托管） | 80+ | 免费（需自托管） |
| Tabnine | Tabnine | 否 | 否（有试用） | 15+ | 12–39美元/月 |

数据要点： CodeGeeX是唯一一个将完全开源许可与免费托管API相结合的产品。这种双重方式同时消除了成本壁垒和基础设施壁垒，使其具有独特的可及性。然而，它缺乏Copilot和CodeWhisperer开箱即用的企业级集成（如VS Code、JetBrains）。

一个值得注意的案例是印度中型软件咨询公司TechBridge Solutions对CodeGeeX的采用。他们将CodeGeeX的API集成到其内部IDE插件中，用于Python和Java开发。据其工程主管称，该工具将样板代码编写时间减少了35%，并在代码审查期间多捕获了12%的语法错误。零成本是一个决定性因素，因为他们50人的开发团队使用Copilot每月将面临6000美元的账单。

行业影响与市场动态

据行业估计，AI代码生成市场预计将从2023年的15亿美元增长到2028年的85亿美元。CodeGeeX作为免费、开源替代方案的入局，给现有企业的定价模式带来了压力。拥有约180万付费用户的GitHub Copilot，年收入约为2亿美元。即使只有一小部分用户迁移到免费替代品，市场格局也将发生转变。

市场份额估计（2024年第一季度）

| 产品 | 估计市场份额 |
|---|---|
| GitHub Copilot | 65% |
| Amazon CodeWhisperer | 15% |
| Tabnine | 8% |
| CodeGeeX | 5% |
| 其他（CodeLlama, StarCoder等） | 7% |

数据要点： CodeGeeX目前仅占5%的市场份额，但其增长轨迹陡峭。其免费模式在价格敏感的市场（东南亚、非洲、拉丁美洲）尤其具有吸引力。如果CodeGeeX能够改善其IDE集成并缩小基准测试差距，它可能成为颠覆性的力量。

然而，挑战依然存在。CodeGeeX的130亿参数规模意味着它无法与GPT-4等更大模型在复杂推理任务上竞争。此外，其训练数据主要来自公共代码仓库，这引发了关于代码质量和安全性的问题——与GitHub Copilot不同，后者受益于对私有仓库的访问。最后，地缘政治因素可能限制其在西方企业的采用，尽管其开源性质在一定程度上缓解了这种担忧。

未来展望与编辑评论

CodeGeeX代表了AI编程民主化的重要一步。通过提供免费、开源且能力不俗的模型，它迫使整个生态系统朝着更易访问的方向发展。GitHub Copilot最近宣布了免费层级，这并非巧合——竞争正在发挥作用。

展望未来，CodeGeeX的路线图包括：
- 更大的模型变体：正在开发一个340亿参数的版本，预计将缩小与CodeLlama的差距。
- 改进的IDE集成：与JetBrains和VS Code的原生插件正在测试中。
- 企业功能：私有部署选项和审计日志正在开发中，以满足企业需求。

编辑评论： CodeGeeX可能不是最强大的代码模型，但它可能是最重要的模型之一。在一个AI工具日益被少数几家资金雄厚的公司锁定的世界里，CodeGeeX提供了一股清流。它证明了高质量AI不必昂贵，开源创新可以挑战闭源巨头。对于发展中国家的开发者、学生以及任何相信软件工具应该人人可及的人来说，CodeGeeX不仅仅是一个替代品——它是一场宣言。

时间归档

延伸阅读

常见问题

GitHub 热点“CodeGeeX: The Open-Source Code Model That Could Democratize AI Programming”主要讲了什么？

CodeGeeX, presented at KDD 2023, is an open-source code generation model built on a self-developed GLM (General Language Model) architecture. It supports code completion, translati…

这个 GitHub 项目在“CodeGeeX vs GitHub Copilot free alternative comparison”上为什么会引发关注？

CodeGeeX is built on the GLM (General Language Model) architecture, a framework developed by Zhipu AI that combines the strengths of autoregressive and autoencoding models. Unlike GPT-style models that use only left-to-r…

从“How to self-host CodeGeeX on local GPU”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 8793，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。