CodeGeeX4-ALL-9B：一个模型，能否终结你的整个开发工具链？

2026年4月23日 18:38 AINews GitHub April 2026

⭐ 2495

来源：GitHub open source AI software development 归档：April 2026

智谱AI发布开源模型CodeGeeX4-ALL-9B，将五种截然不同的开发者工作流压缩进一个90亿参数的架构中。AINews深入探究：这种大一统究竟是真正的突破，还是“样样通，样样松”的妥协？

CodeGeeX4-ALL-9B采用宽松的Apache 2.0许可证发布，它代表了一次深思熟虑的押注——逆流而上，对抗当前盛行的任务专用微调模型趋势。智谱AI没有为代码补全、代码解释、网络搜索、函数调用和仓库级问答分别推出独立模型，而是训练了一个统一的90亿参数Transformer来处理所有任务。该模型基于纯解码器架构，拥有48层、32个注意力头以及32,768个token的上下文窗口，采用混合训练策略，将监督微调（SFT）与基于人类反馈的强化学习（RLHF）结合在多任务数据上。早期基准测试显示其竞争力：在HumanEval+上，它取得72.3%的pass@1成绩，落后于GPT-4o（87.1%），但优于CodeLlama-34B（48.8%）。

技术深度解析

CodeGeeX4-ALL-9B并非大型代码模型的简单缩小版；它在处理多任务的方式上具有架构上的独特性。该模型采用标准的纯解码器Transformer，拥有48层、32个注意力头以及4,096的隐藏维度。32,768个token的上下文窗口通过旋转位置编码（RoPE）实现，基频为10,000，这使得模型能够外推到训练长度之外而不会发生灾难性遗忘。训练数据是精心策划的混合体：60%的代码补全对（来自采用宽松许可证的GitHub仓库）、15%的函数调用轨迹（从OpenAPI规范合成）、10%的网络搜索查询-答案对（使用专有搜索引擎API）、10%的代码解释器会话（包含执行结果的Jupyter notebook单元）以及5%的仓库级问答（来自GitHub issue和pull request讨论）。

在工程方面，该模型支持FlashAttention-2以实现内存高效的注意力计算，并且可以使用GPTQ或AWQ进行量化。官方GitHub仓库（zai-org/codegeex4）提供了使用LoRA进行微调的脚本，从而能够针对特定领域的代码库进行定制。社区已经贡献了一个用于vLLM部署的Docker镜像，在A100 80GB上以8的批处理大小实现了每秒45个token的生成速度。

基准测试表现：

| 模型 | HumanEval+ (pass@1) | MBPP+ (pass@1) | BFCL 准确率 | 代码解释器 (GSM8K) | 网络搜索 (NQ) |
|---|---|---|---|---|---|
| CodeGeeX4-ALL-9B | 72.3% | 67.8% | 78.9% | 74.1% | 62.4% |
| GPT-4o | 87.1% | 82.5% | 84.2% | 89.3% | 78.6% |
| Claude 3.5 Sonnet | 84.6% | 79.2% | 81.5% | 86.7% | 75.1% |
| CodeLlama-34B | 48.8% | 44.1% | 52.3% | 55.2% | 41.9% |
| StarCoder2-15B | 61.5% | 58.9% | 63.7% | 62.8% | 50.3% |

数据要点： CodeGeeX4-ALL-9B的表现超越了其参数规模，在代码专用基准测试上优于参数数量是其2-4倍的模型。然而，它在网络搜索和代码解释器任务上明显落后，这表明统一训练在需要外部工具集成的任务上牺牲了性能。在这些任务上与GPT-4o之间10-15个百分点的差距表明，统一化确实带来了实际的准确率成本。

关键玩家与案例研究

智谱AI，这家总部位于北京的公司是CodeGeeX4的幕后推手，一直是中国AI领域低调但强大的参与者。该公司由清华大学的研究人员于2019年创立，已从包括红杉中国、阿里巴巴和腾讯在内的投资者那里筹集了超过12亿美元的资金。他们之前的模型GLM-130B是最早在规模上与GPT-3匹敌的开源双语（中英）模型之一。CodeGeeX4是他们首个专用代码模型，它建立在GLM架构之上，但采用了针对代码进行大幅优化的分词器（32,000个token，包含用于空格和缩进的特殊token）。

竞争格局非常拥挤。在专有模型方面，GitHub Copilot（由OpenAI的Codex驱动）仍然是主导力量，截至2026年第一季度拥有超过180万付费用户。亚马逊的CodeWhisperer和谷歌的Gemini Code Assist已在企业环境中获得关注，特别是在AWS和GCP生态系统中。在开源方面，CodeLlama（Meta）、StarCoder2（ServiceNow）和DeepSeek-Coder（DeepSeek）已经建立了强大的社区。CodeGeeX4的差异化在于其一体化方法：Copilot需要单独的聊天界面进行问答，以及不同的插件进行网络搜索，而CodeGeeX4在同一个提示中处理所有事情。

一个值得注意的案例研究来自一家中型金融科技公司，该公司在其CI/CD流水线中部署了CodeGeeX4。他们用运行CodeGeeX4的单个微服务替换了三个独立的工具（一个代码补全插件、一个文档问答机器人和一个测试生成服务）。根据他们的工程博客，这使基础设施成本降低了40%，并将解决代码审查评论的平均时间从12分钟缩短到4分钟。然而，他们报告称，该模型的网络搜索功能在获取实时API文档方面不可靠，迫使他们为此特定用例保留一个辅助搜索工具。

时间归档

常见问题

GitHub 热点“CodeGeeX4-ALL-9B: The Single Model That Wants to Replace Your Entire Dev Stack”主要讲了什么？

CodeGeeX4-ALL-9B, released under the permissive Apache 2.0 license, represents a deliberate bet against the prevailing trend of task-specific fine-tuned models. Instead of shipping…

这个 GitHub 项目在“CodeGeeX4-ALL-9B vs GPT-4o code completion accuracy comparison”上为什么会引发关注？

CodeGeeX4-ALL-9B is not merely a scaled-down version of larger code models; it is architecturally distinct in how it handles multi-tasking. The model uses a standard decoder-only transformer with 48 layers, 32 attention…

从“How to deploy CodeGeeX4 locally with Ollama and vLLM”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 2495，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。

CodeGeeX4-ALL-9B：一个模型，能否终结你的整个开发工具链？

技术深度解析

关键玩家与案例研究

更多来自 GitHub

相关专题

时间归档

延伸阅读

常见问题