代码能力成为AI公司估值新标尺

AI行业的估值逻辑正被一个变量剧烈颠覆：编程能力。这不再是关于参数数量或用户增长——而是关于模型能否以专业水平编写、调试和优化代码。DeepSeek以其编程能力成为标志，目前正在洽谈一笔惊人的70亿美元单轮融资，估值可能达到590亿美元——这是国内AI公司有史以来最大的一笔。与此同时，Kimi的K2.5模型在增强编程能力后，20天内产生的收入超过了其2025年全年总和，在短短三个月内将ARR推至2亿美元，并在半年内通过四轮融资筹集了超过39亿美元。智谱的GLM-5在SWE-bench Verified排行榜上登顶开源模型，推动其估值飙升。

技术深度解析

编程能力成为主要估值指标的转变，根植于一个基本的技术现实：编程基准是模型推理深度、精确度以及处理复杂多步骤任务能力的最可靠代理指标。与通用语言理解基准（MMLU、HellaSwag）不同，编程任务要求精确输出、逻辑一致性以及综合多个约束条件的能力。这使得它们远不易受“表面级”改进或数据污染的影响。

SWE-bench革命

SWE-bench基准，特别是其“Verified”子集，已成为评估真实世界编程能力的事实标准。它向模型展示来自流行开源仓库（Django、Flask、SymPy）的实际GitHub问题，并要求模型生成一个能通过仓库测试套件的补丁。这不是一个玩具问题——它要求理解现有代码库、解决依赖关系以及精确的语法。智谱的GLM-5在SWE-bench Verified上达到了48.6%的解决率，超越了所有之前的开源模型，并接近了GPT-4o（53.1%）和Claude 3.5 Sonnet（49.7%）等闭源领先者。

架构创新

DeepSeek的编程优势源于其混合专家（MoE）架构，该架构每个token仅激活一部分参数。这使得模型能够保持巨大的总参数量（估计为1.5T），同时保持较低的推理成本。该架构对编程特别有效，因为不同的“专家”可以专注于不同的编程语言、框架或算法模式。DeepSeek还开创了一种新颖的基于人类反馈的强化学习（RLHF）流程，专门针对代码生成进行了调整，使用单元测试通过率作为奖励信号，而不是人类偏好判断。

Kimi K2.5的突破

Kimi的K2.5模型采取了不同的方法，专注于“长上下文”编程。通过将其上下文窗口扩展到100万个token，K2.5可以在生成补丁之前吸收整个代码库，从而显著提高其在大型、不熟悉项目中修复错误的能力。这是一个关键的区别：大多数模型在相关代码分布在多个文件中时会遇到困难。K2.5的架构使用了一种稀疏注意力机制，选择性地关注上下文中最相关的部分，在保持准确性的同时减少了计算开销。

基准性能对比

| 模型 | SWE-bench Verified | HumanEval+ | MBPP+ | 每百万token成本（美元） |
|---|---|---|---|---|
| DeepSeek-Coder-V2 | 44.2% | 85.1% | 78.3% | $0.28 |
| Kimi K2.5 | 46.8% | 87.3% | 80.1% | $0.45 |
| Zhipu GLM-5 | 48.6% | 88.9% | 82.4% | $0.35 |
| GPT-4o | 53.1% | 90.2% | 85.7% | $5.00 |
| Claude 3.5 Sonnet | 49.7% | 89.1% | 84.0% | $3.00 |

数据要点： 中国模型正以GPT-4o 5-10%的成本接近前沿性能。这种成本优势是其商业成功的主要驱动力——企业可以在不超出预算的情况下大规模部署它们。

值得关注的开源仓库

- deepseek-ai/DeepSeek-Coder（GitHub：18,000+星标）：DeepSeek编程模型的开源版本，提供1.3B、6.7B和33B参数变体。最近的更新包括支持87种编程语言和一种新颖的“填空”训练目标。
- THUDM/GLM-5（GitHub：12,000+星标）：智谱的开源模型，在SWE-bench上登顶。它使用了一种独特的“多轮代码修复”训练策略，模型在其中学习迭代改进自己的输出。
- moonshotai/Kimi-K2.5（GitHub：8,500+星标）：虽然并非完全开源，但Kimi已发布了较小变体的推理代码和模型权重，允许开发者测试长上下文编程能力。

关键玩家与案例研究

DeepSeek：效率冠军

DeepSeek的崛起堪称迅猛。由前量化对冲基金高管梁文锋创立，该公司一直专注于成本效率。其70亿美元的融资轮由主权财富基金和科技集团组成的财团牵头，估值达到590亿美元——超过了许多上市AI公司。关键洞察：DeepSeek证明，在仅使用GPT-4计算预算一小部分的情况下训练的模型，可以匹配或超越其编程性能。这迫使人们重新评估多年来主导AI投资的“缩放定律”。

Kimi（Moonshot AI）：收入机器

Kimi的发展轨迹或许最为戏剧性。该公司由前Google AI研究员杨植麟创立，于2026年初推出了K2.5。在20天内，该模型产生的收入超过了公司2025年全年总和。秘诀是什么？Kimi积极瞄准“AI编程助手”市场，与VS Code、JetBrains和GitHub Copilot集成。其ARR在三个月内达到2亿美元，公司在半年内通过四轮融资筹集了39亿美元。

时间归档

延伸阅读

常见问题

这起“Coding Prowess Becomes the New Valuation Yardstick for AI Companies”融资事件讲了什么？

The AI industry's valuation logic has been violently disrupted by one variable: coding capability. This isn't about parameter counts or user growth anymore—it's about whether a mod…

从“DeepSeek coding benchmark performance vs GPT-4o”看，为什么这笔融资值得关注？

The shift toward coding as the primary valuation metric is rooted in a fundamental technical reality: coding benchmarks are the most reliable proxies for a model's reasoning depth, precision, and ability to handle comple…

这起融资事件在“Kimi K2.5 revenue growth analysis”上释放了什么行业信号？

它通常意味着该赛道正在进入资源加速集聚期，后续值得继续关注团队扩张、产品落地、商业化验证和同类公司跟进。