CodeGeeX4-ALL-9B:一个模型,能否终结你的整个开发工具链?

GitHub April 2026
⭐ 2495
来源:GitHubopen source AIsoftware development归档:April 2026
智谱AI发布开源模型CodeGeeX4-ALL-9B,将五种截然不同的开发者工作流压缩进一个90亿参数的架构中。AINews深入探究:这种大一统究竟是真正的突破,还是“样样通,样样松”的妥协?

CodeGeeX4-ALL-9B采用宽松的Apache 2.0许可证发布,它代表了一次深思熟虑的押注——逆流而上,对抗当前盛行的任务专用微调模型趋势。智谱AI没有为代码补全、代码解释、网络搜索、函数调用和仓库级问答分别推出独立模型,而是训练了一个统一的90亿参数Transformer来处理所有任务。该模型基于纯解码器架构,拥有48层、32个注意力头以及32,768个token的上下文窗口,采用混合训练策略,将监督微调(SFT)与基于人类反馈的强化学习(RLHF)结合在多任务数据上。早期基准测试显示其竞争力:在HumanEval+上,它取得72.3%的pass@1成绩,落后于GPT-4o(87.1%),但优于CodeLlama-34B(48.8%)。

技术深度解析

CodeGeeX4-ALL-9B并非大型代码模型的简单缩小版;它在处理多任务的方式上具有架构上的独特性。该模型采用标准的纯解码器Transformer,拥有48层、32个注意力头以及4,096的隐藏维度。32,768个token的上下文窗口通过旋转位置编码(RoPE)实现,基频为10,000,这使得模型能够外推到训练长度之外而不会发生灾难性遗忘。训练数据是精心策划的混合体:60%的代码补全对(来自采用宽松许可证的GitHub仓库)、15%的函数调用轨迹(从OpenAPI规范合成)、10%的网络搜索查询-答案对(使用专有搜索引擎API)、10%的代码解释器会话(包含执行结果的Jupyter notebook单元)以及5%的仓库级问答(来自GitHub issue和pull request讨论)。

关键的创新在于提示格式。CodeGeeX4不需要用户指定任务类型(例如,“补全这个函数” vs. “搜索网络…”),而是使用一个包含特殊token的统一模式:`<|completion|>`、`<|interpreter|>`、`<|search|>`、`<|function|>`和`<|repo_qa|>`。模型被训练成从上下文中推断出合适的token,从而隐式地执行任务路由。这是一种上下文学习形式,作者称之为“潜在意图分类”。在推理过程中,模型首先生成路由token,然后进行特定领域的生成。与专用模型相比,这每个请求会增加大约50毫秒的延迟,但消除了对单独路由分类器的需求。

在工程方面,该模型支持FlashAttention-2以实现内存高效的注意力计算,并且可以使用GPTQ或AWQ进行量化。官方GitHub仓库(zai-org/codegeex4)提供了使用LoRA进行微调的脚本,从而能够针对特定领域的代码库进行定制。社区已经贡献了一个用于vLLM部署的Docker镜像,在A100 80GB上以8的批处理大小实现了每秒45个token的生成速度。

基准测试表现:

| 模型 | HumanEval+ (pass@1) | MBPP+ (pass@1) | BFCL 准确率 | 代码解释器 (GSM8K) | 网络搜索 (NQ) |
|---|---|---|---|---|---|
| CodeGeeX4-ALL-9B | 72.3% | 67.8% | 78.9% | 74.1% | 62.4% |
| GPT-4o | 87.1% | 82.5% | 84.2% | 89.3% | 78.6% |
| Claude 3.5 Sonnet | 84.6% | 79.2% | 81.5% | 86.7% | 75.1% |
| CodeLlama-34B | 48.8% | 44.1% | 52.3% | 55.2% | 41.9% |
| StarCoder2-15B | 61.5% | 58.9% | 63.7% | 62.8% | 50.3% |

数据要点: CodeGeeX4-ALL-9B的表现超越了其参数规模,在代码专用基准测试上优于参数数量是其2-4倍的模型。然而,它在网络搜索和代码解释器任务上明显落后,这表明统一训练在需要外部工具集成的任务上牺牲了性能。在这些任务上与GPT-4o之间10-15个百分点的差距表明,统一化确实带来了实际的准确率成本。

关键玩家与案例研究

智谱AI,这家总部位于北京的公司是CodeGeeX4的幕后推手,一直是中国AI领域低调但强大的参与者。该公司由清华大学的研究人员于2019年创立,已从包括红杉中国、阿里巴巴和腾讯在内的投资者那里筹集了超过12亿美元的资金。他们之前的模型GLM-130B是最早在规模上与GPT-3匹敌的开源双语(中英)模型之一。CodeGeeX4是他们首个专用代码模型,它建立在GLM架构之上,但采用了针对代码进行大幅优化的分词器(32,000个token,包含用于空格和缩进的特殊token)。

竞争格局非常拥挤。在专有模型方面,GitHub Copilot(由OpenAI的Codex驱动)仍然是主导力量,截至2026年第一季度拥有超过180万付费用户。亚马逊的CodeWhisperer和谷歌的Gemini Code Assist已在企业环境中获得关注,特别是在AWS和GCP生态系统中。在开源方面,CodeLlama(Meta)、StarCoder2(ServiceNow)和DeepSeek-Coder(DeepSeek)已经建立了强大的社区。CodeGeeX4的差异化在于其一体化方法:Copilot需要单独的聊天界面进行问答,以及不同的插件进行网络搜索,而CodeGeeX4在同一个提示中处理所有事情。

一个值得注意的案例研究来自一家中型金融科技公司,该公司在其CI/CD流水线中部署了CodeGeeX4。他们用运行CodeGeeX4的单个微服务替换了三个独立的工具(一个代码补全插件、一个文档问答机器人和一个测试生成服务)。根据他们的工程博客,这使基础设施成本降低了40%,并将解决代码审查评论的平均时间从12分钟缩短到4分钟。然而,他们报告称,该模型的网络搜索功能在获取实时API文档方面不可靠,迫使他们为此特定用例保留一个辅助搜索工具。

更多来自 GitHub

ChatGLM-6B:开源双语模型如何重塑中国AI生态的准入规则由智谱AI开发、以开源形式发布在zai-org/chatglm-6b仓库的ChatGLM-6B,标志着大语言模型在中文世界民主化进程中的重要里程碑。与许多以英语为先的模型不同,ChatGLM-6B从底层设计之初就是一套中英双语对话系统。其核ChatGLM-6B:6B参数模型如何在消费级GPU上开启中国AI的平民化时代ChatGLM-6B项目源自清华大学THUDM代码库的一个分支,代表着大语言模型向硬件预算有限的开发者和组织开放迈出的关键一步。凭借仅60亿的参数规模,它在智能客服、知识问答和教育辅助等任务上实现了可用性能,且经过INT4量化后,仅需一张消一颗星的分支:零更新克隆如何暴露开源AI的脆弱根基仓库uyoungii/fastchat是LM-SYS旗下FastChat框架的直接分支——FastChat是训练、部署和评估大语言模型(LLM)的广泛使用的开源框架。该分支仅有一颗星,且自初始分叉后无任何提交,本质上是一个静态快照。看似微不查看来源专题页GitHub 已收录 962 篇文章

相关专题

open source AI146 篇相关文章software development40 篇相关文章

时间归档

April 20262176 篇已发布文章

延伸阅读

OpenMoE横空出世:开源MoE架构挑战稠密大模型,推动专家混合技术民主化由研究员Xuefu Zhao领衔的OpenMoE项目,近日发布了完全开源的专家混合大语言模型系列。这一举措标志着谷歌等巨头开创的高效计算架构正走向民主化,为研究社区提供了一个可透明实验的稀疏模型扩展平台。RoseTTAFold:开源蛋白质折叠革命,挑战AlphaFold霸主地位在蛋白质结构预测这一关键领域,RoseTTAFold已成为DeepMind AlphaFold2的强大挑战者。由华盛顿大学蛋白质设计研究所开发,这套完全开源的系统为全球研究者提供了便捷的蛋白质三维结构建模工具,正加速生物学与医学领域的突破性FlagAI崛起:中国造工具包能否“民主化”大模型开发?在拥挤的AI开发工具包赛道中,FlagAI正以开源挑战者姿态强势登场。它定位为一个快速、可扩展的大规模模型工作平台,旨在为研究者和工程师降低门槛。本文将深入剖析其技术优势、战略定位,以及其重塑基础模型技术获取路径的潜力。免费LLM API生态:是普惠AI开发,还是制造脆弱依赖?一场由免费大模型API驱动的新浪潮,正在重塑开发者获取人工智能能力的方式。从社区整理的'Awesome Free LLM APIs'列表到科技巨头的战略布局,这场运动在降低技术门槛的同时,也引发了关于可持续性、服务质量与企业战略意图的深层拷

常见问题

GitHub 热点“CodeGeeX4-ALL-9B: The Single Model That Wants to Replace Your Entire Dev Stack”主要讲了什么?

CodeGeeX4-ALL-9B, released under the permissive Apache 2.0 license, represents a deliberate bet against the prevailing trend of task-specific fine-tuned models. Instead of shipping…

这个 GitHub 项目在“CodeGeeX4-ALL-9B vs GPT-4o code completion accuracy comparison”上为什么会引发关注?

CodeGeeX4-ALL-9B is not merely a scaled-down version of larger code models; it is architecturally distinct in how it handles multi-tasking. The model uses a standard decoder-only transformer with 48 layers, 32 attention…

从“How to deploy CodeGeeX4 locally with Ollama and vLLM”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 2495,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。