技术深度解析
编程能力成为主要估值指标的转变,根植于一个基本的技术现实:编程基准是模型推理深度、精确度以及处理复杂多步骤任务能力的最可靠代理指标。与通用语言理解基准(MMLU、HellaSwag)不同,编程任务要求精确输出、逻辑一致性以及综合多个约束条件的能力。这使得它们远不易受“表面级”改进或数据污染的影响。
SWE-bench革命
SWE-bench基准,特别是其“Verified”子集,已成为评估真实世界编程能力的事实标准。它向模型展示来自流行开源仓库(Django、Flask、SymPy)的实际GitHub问题,并要求模型生成一个能通过仓库测试套件的补丁。这不是一个玩具问题——它要求理解现有代码库、解决依赖关系以及精确的语法。智谱的GLM-5在SWE-bench Verified上达到了48.6%的解决率,超越了所有之前的开源模型,并接近了GPT-4o(53.1%)和Claude 3.5 Sonnet(49.7%)等闭源领先者。
架构创新
DeepSeek的编程优势源于其混合专家(MoE)架构,该架构每个token仅激活一部分参数。这使得模型能够保持巨大的总参数量(估计为1.5T),同时保持较低的推理成本。该架构对编程特别有效,因为不同的“专家”可以专注于不同的编程语言、框架或算法模式。DeepSeek还开创了一种新颖的基于人类反馈的强化学习(RLHF)流程,专门针对代码生成进行了调整,使用单元测试通过率作为奖励信号,而不是人类偏好判断。
Kimi K2.5的突破
Kimi的K2.5模型采取了不同的方法,专注于“长上下文”编程。通过将其上下文窗口扩展到100万个token,K2.5可以在生成补丁之前吸收整个代码库,从而显著提高其在大型、不熟悉项目中修复错误的能力。这是一个关键的区别:大多数模型在相关代码分布在多个文件中时会遇到困难。K2.5的架构使用了一种稀疏注意力机制,选择性地关注上下文中最相关的部分,在保持准确性的同时减少了计算开销。
基准性能对比
| 模型 | SWE-bench Verified | HumanEval+ | MBPP+ | 每百万token成本(美元) |
|---|---|---|---|---|
| DeepSeek-Coder-V2 | 44.2% | 85.1% | 78.3% | $0.28 |
| Kimi K2.5 | 46.8% | 87.3% | 80.1% | $0.45 |
| Zhipu GLM-5 | 48.6% | 88.9% | 82.4% | $0.35 |
| GPT-4o | 53.1% | 90.2% | 85.7% | $5.00 |
| Claude 3.5 Sonnet | 49.7% | 89.1% | 84.0% | $3.00 |
数据要点: 中国模型正以GPT-4o 5-10%的成本接近前沿性能。这种成本优势是其商业成功的主要驱动力——企业可以在不超出预算的情况下大规模部署它们。
值得关注的开源仓库
- deepseek-ai/DeepSeek-Coder(GitHub:18,000+星标):DeepSeek编程模型的开源版本,提供1.3B、6.7B和33B参数变体。最近的更新包括支持87种编程语言和一种新颖的“填空”训练目标。
- THUDM/GLM-5(GitHub:12,000+星标):智谱的开源模型,在SWE-bench上登顶。它使用了一种独特的“多轮代码修复”训练策略,模型在其中学习迭代改进自己的输出。
- moonshotai/Kimi-K2.5(GitHub:8,500+星标):虽然并非完全开源,但Kimi已发布了较小变体的推理代码和模型权重,允许开发者测试长上下文编程能力。
关键玩家与案例研究
DeepSeek:效率冠军
DeepSeek的崛起堪称迅猛。由前量化对冲基金高管梁文锋创立,该公司一直专注于成本效率。其70亿美元的融资轮由主权财富基金和科技集团组成的财团牵头,估值达到590亿美元——超过了许多上市AI公司。关键洞察:DeepSeek证明,在仅使用GPT-4计算预算一小部分的情况下训练的模型,可以匹配或超越其编程性能。这迫使人们重新评估多年来主导AI投资的“缩放定律”。
Kimi(Moonshot AI):收入机器
Kimi的发展轨迹或许最为戏剧性。该公司由前Google AI研究员杨植麟创立,于2026年初推出了K2.5。在20天内,该模型产生的收入超过了公司2025年全年总和。秘诀是什么?Kimi积极瞄准“AI编程助手”市场,与VS Code、JetBrains和GitHub Copilot集成。其ARR在三个月内达到2亿美元,公司在半年内通过四轮融资筹集了39亿美元。