代码能力成为AI公司估值新标尺

June 2026
归档:June 2026
一个单一指标正在重塑投资者对中国顶级AI公司的估值逻辑——不是参数规模,不是月活用户,不是多模态能力,而是编程性能。DeepSeek正在谈判创纪录的70亿美元融资轮,而Kimi的K2.5模型在三个月内将ARR推至2亿美元。代码,就是新的黄金标准。

AI行业的估值逻辑正被一个变量剧烈颠覆:编程能力。这不再是关于参数数量或用户增长——而是关于模型能否以专业水平编写、调试和优化代码。DeepSeek以其编程能力成为标志,目前正在洽谈一笔惊人的70亿美元单轮融资,估值可能达到590亿美元——这是国内AI公司有史以来最大的一笔。与此同时,Kimi的K2.5模型在增强编程能力后,20天内产生的收入超过了其2025年全年总和,在短短三个月内将ARR推至2亿美元,并在半年内通过四轮融资筹集了超过39亿美元。智谱的GLM-5在SWE-bench Verified排行榜上登顶开源模型,推动其估值飙升。

技术深度解析

编程能力成为主要估值指标的转变,根植于一个基本的技术现实:编程基准是模型推理深度、精确度以及处理复杂多步骤任务能力的最可靠代理指标。与通用语言理解基准(MMLU、HellaSwag)不同,编程任务要求精确输出、逻辑一致性以及综合多个约束条件的能力。这使得它们远不易受“表面级”改进或数据污染的影响。

SWE-bench革命

SWE-bench基准,特别是其“Verified”子集,已成为评估真实世界编程能力的事实标准。它向模型展示来自流行开源仓库(Django、Flask、SymPy)的实际GitHub问题,并要求模型生成一个能通过仓库测试套件的补丁。这不是一个玩具问题——它要求理解现有代码库、解决依赖关系以及精确的语法。智谱的GLM-5在SWE-bench Verified上达到了48.6%的解决率,超越了所有之前的开源模型,并接近了GPT-4o(53.1%)和Claude 3.5 Sonnet(49.7%)等闭源领先者。

架构创新

DeepSeek的编程优势源于其混合专家(MoE)架构,该架构每个token仅激活一部分参数。这使得模型能够保持巨大的总参数量(估计为1.5T),同时保持较低的推理成本。该架构对编程特别有效,因为不同的“专家”可以专注于不同的编程语言、框架或算法模式。DeepSeek还开创了一种新颖的基于人类反馈的强化学习(RLHF)流程,专门针对代码生成进行了调整,使用单元测试通过率作为奖励信号,而不是人类偏好判断。

Kimi K2.5的突破

Kimi的K2.5模型采取了不同的方法,专注于“长上下文”编程。通过将其上下文窗口扩展到100万个token,K2.5可以在生成补丁之前吸收整个代码库,从而显著提高其在大型、不熟悉项目中修复错误的能力。这是一个关键的区别:大多数模型在相关代码分布在多个文件中时会遇到困难。K2.5的架构使用了一种稀疏注意力机制,选择性地关注上下文中最相关的部分,在保持准确性的同时减少了计算开销。

基准性能对比

| 模型 | SWE-bench Verified | HumanEval+ | MBPP+ | 每百万token成本(美元) |
|---|---|---|---|---|
| DeepSeek-Coder-V2 | 44.2% | 85.1% | 78.3% | $0.28 |
| Kimi K2.5 | 46.8% | 87.3% | 80.1% | $0.45 |
| Zhipu GLM-5 | 48.6% | 88.9% | 82.4% | $0.35 |
| GPT-4o | 53.1% | 90.2% | 85.7% | $5.00 |
| Claude 3.5 Sonnet | 49.7% | 89.1% | 84.0% | $3.00 |

数据要点: 中国模型正以GPT-4o 5-10%的成本接近前沿性能。这种成本优势是其商业成功的主要驱动力——企业可以在不超出预算的情况下大规模部署它们。

值得关注的开源仓库

- deepseek-ai/DeepSeek-Coder(GitHub:18,000+星标):DeepSeek编程模型的开源版本,提供1.3B、6.7B和33B参数变体。最近的更新包括支持87种编程语言和一种新颖的“填空”训练目标。
- THUDM/GLM-5(GitHub:12,000+星标):智谱的开源模型,在SWE-bench上登顶。它使用了一种独特的“多轮代码修复”训练策略,模型在其中学习迭代改进自己的输出。
- moonshotai/Kimi-K2.5(GitHub:8,500+星标):虽然并非完全开源,但Kimi已发布了较小变体的推理代码和模型权重,允许开发者测试长上下文编程能力。

关键玩家与案例研究

DeepSeek:效率冠军

DeepSeek的崛起堪称迅猛。由前量化对冲基金高管梁文锋创立,该公司一直专注于成本效率。其70亿美元的融资轮由主权财富基金和科技集团组成的财团牵头,估值达到590亿美元——超过了许多上市AI公司。关键洞察:DeepSeek证明,在仅使用GPT-4计算预算一小部分的情况下训练的模型,可以匹配或超越其编程性能。这迫使人们重新评估多年来主导AI投资的“缩放定律”。

Kimi(Moonshot AI):收入机器

Kimi的发展轨迹或许最为戏剧性。该公司由前Google AI研究员杨植麟创立,于2026年初推出了K2.5。在20天内,该模型产生的收入超过了公司2025年全年总和。秘诀是什么?Kimi积极瞄准“AI编程助手”市场,与VS Code、JetBrains和GitHub Copilot集成。其ARR在三个月内达到2亿美元,公司在半年内通过四轮融资筹集了39亿美元。

时间归档

June 2026396 篇已发布文章

延伸阅读

华为云INSPIRE 2025:"硅基黑土"战略如何重新定义AI云战争华为云在INSPIRE创作者大会上终于亮出AI底牌:不追逐MaaS规模,而是为智能体时代打造"硅基黑土",并深入医疗、制造等高价值垂直领域。这标志着从模糊到差异化聚焦的关键转折。一张照片生成可训练机器人世界:南洋理工大学团队突破3D标注成本壁垒仅需一张照片,即可生成具备完整物理属性的3D资产,用于机器人训练。南洋理工大学曹子昂团队破解手动标注瓶颈,从单张图像自动推断质量、摩擦力和关节约束,让虚拟世界真正“物理正确”。WPS笔记如何将AI编程错误转化为可复用的知识库凌晨两点,GPU峰值崩溃后,工程师曹建意识到AI编程最大的风险不是生成代码,而是忘记当初为何做出某个决策。他用WPS笔记构建了一个47万字的个人知识库,将错误诊断时间从30分钟缩短至3分钟。这是AI原生笔记如何将短暂失败转化为可复用智慧的故阿里语音AI大满贯:一个模型家族如何横扫ASR、TTS与对话三大赛道阿里语音大模型在全球语音竞技场基准测试中横扫ASR、TTS与对话三大类别榜首,成为首个实现语音智能大满贯的中国AI。其中Fun-Realtime-TTS-Preview模型以1190分的Elo评分位列全球第五、国内第一。

常见问题

这起“Coding Prowess Becomes the New Valuation Yardstick for AI Companies”融资事件讲了什么?

The AI industry's valuation logic has been violently disrupted by one variable: coding capability. This isn't about parameter counts or user growth anymore—it's about whether a mod…

从“DeepSeek coding benchmark performance vs GPT-4o”看,为什么这笔融资值得关注?

The shift toward coding as the primary valuation metric is rooted in a fundamental technical reality: coding benchmarks are the most reliable proxies for a model's reasoning depth, precision, and ability to handle comple…

这起融资事件在“Kimi K2.5 revenue growth analysis”上释放了什么行业信号?

它通常意味着该赛道正在进入资源加速集聚期,后续值得继续关注团队扩张、产品落地、商业化验证和同类公司跟进。