Token数量对决智能体深度：中国AI之争定义AGI未来

上周，中国大语言模型领域迎来了前所未有的交汇时刻：两大最受瞩目的竞争者——DeepSeek与Moonshot AI（Kimi）——在数天内相继发布了各自的最新旗舰模型。DeepSeek V4，作为广受好评的V3的继任者，延续了该组织对规模的执着追求：更大的参数数量、更多的训练数据以及更长的计算周期。另一边，Kimi K2.6则代表着一次向智能体能力的刻意转向——工具使用、多步骤任务分解以及扩展上下文推理——由CEO杨植麟力推。这不仅仅是产品发布周期，更是一场关于通往通用人工智能根本路径的公开辩论。DeepSeek的理念呼应了OpenAI推广的扩展定律。

技术深度剖析

DeepSeek V4与Kimi K2.6之间的技术分野，通过审视其架构选择与优化目标，便能得到最佳理解。

DeepSeek V4：扩展之路的延续

DeepSeek V4构建于密集Transformer架构之上，估计拥有1.8万亿参数，相较于V3的671B（通过混合专家模型，每个Token激活37B）有了显著提升。团队将训练数据集翻倍至约28万亿Token，这些数据来自精炼的网络语料库、多语言书籍以及由早期模型迭代生成的合成数据。训练过程估计消耗了630万GPU小时，运行在一个由10,000块H800 GPU组成的集群上，并采用了一种新颖的流水线并行方案，与V3相比，将节点间通信开销降低了40%。DeepSeek已在GitHub上以仓库`deepseek-ai/DeepSeek-V4-Train`开源了训练基础设施代码，上线首周即获得超过4200颗星。该模型在MMLU上报告达到89.1%（V3为86.7%），在GSM8K上达到92.3%。然而，在GAIA（通用AI助手基准测试）等智能体任务上，其表现落后，仅为67.4%，这表明原始知识并不能自动转化为有效的工具使用能力。

Kimi K2.6：智能体优先架构

Kimi K2.6采取了一种根本不同的方法。杨植麟的团队并未追求最大化参数数量，而是聚焦于三项核心创新：一个100万Token的上下文窗口（从K2.0的20万Token提升而来）、一个将外部工具调用作为一等操作的模块化智能体循环，以及一项新颖的“上下文蒸馏”技术，可将长历史压缩为紧凑的记忆向量。该模型本身估计拥有4000亿参数，但其有效能力通过调用外部API——网络搜索、代码解释器、数据库查询，甚至机器人控制接口——经由一个结构化的动作空间得到了放大。智能体循环通过一个基于人类反馈的强化学习（RLHF）流程实现，其中奖励模型不仅对最终答案评分，还对中间步骤进行评分：工具选择、查询制定和错误恢复。这在开源仓库`moonshot-ai/kimi-agent-core`（2800颗星）中有详细说明。在GAIA基准测试中，Kimi K2.6得分81.2%；在SWE-bench（软件工程任务）上，它达到44.7%，而DeepSeek V4为31.2%。然而，在纯知识回忆（MMLU）上，它得分为84.5%——表现可观但并非领先。

| 基准测试 | DeepSeek V4 | Kimi K2.6 | 差值 |
|---|---|---|---|
| MMLU（知识） | 89.1% | 84.5% | +4.6% DeepSeek |
| GSM8K（数学） | 92.3% | 88.1% | +4.2% DeepSeek |
| GAIA（智能体） | 67.4% | 81.2% | +13.8% Kimi |
| SWE-bench（编码） | 31.2% | 44.7% | +13.5% Kimi |
| 长上下文回忆（100万Token） | 72.1% | 89.6% | +17.5% Kimi |

数据要点： 这些数字揭示出清晰的专业化分工。DeepSeek V4在静态知识和推理基准测试中占据主导地位，而Kimi K2.6则在动态、交互式任务中表现出色。长上下文方面的差距尤其引人注目——Kimi的100万Token窗口和上下文蒸馏技术为其带来了17.5个百分点的优势，这对于法律文档分析或代码库理解等企业级用例至关重要。

关键参与者与案例研究

DeepSeek（中国杭州）

由梁文锋创立的DeepSeek，已成为中国最激进的扩展倡导者。该组织秉持研究优先的文化，发布详细的技术报告并开源模型。DeepSeek V3在2024年末因以极低的训练成本实现GPT-4级别的性能而风靡一时。V4延续了这一轨迹，但团队面临一个战略性问题：仅靠扩展能维持领先地位多久？该模型较弱的智能体性能表明，缺乏行动能力的纯知识可能会限制其在现实世界中的部署。

Moonshot AI（中国北京）—— Kimi

杨植麟，前Google Brain研究员、卡内基梅隆大学博士，已将Kimi定位为“智能体AI”的倡导者。该公司在2025年初以85亿美元估值完成了12亿美元的B轮融资，投资者包括阿里巴巴和红杉中国。Kimi的产品策略与其模型紧密集成：Kimi Chat应用已支持浏览、文件分析和代码执行。K2.6旨在驱动自主工作流——从爬取网络并综合数据的市场研究报告，到编写和运行代码的自动化软件测试。杨植麟公开表示：“AI的下一个10倍改进将不会来自更大的模型，而是来自能够行动的模型。”

| 公司 | 模型 | 参数数量 | 训练成本（估计） | 主要优势 | 关键投资者 |
|---|---|---|---|---|---|
| DeepSeek | V4 | 1.8T（密集） | 2800万美元 | 知识与推理 | 自筹资金，VC轮待定 |
| Moonshot AI | K2.6 | 400B（密集） | 1200万美元 | 智能体任务与长上下文 | 阿里巴巴，红杉中国 |
| 百度 | ERNIE 5.0 | 1.2T（MoE） | 2200万美元 | 中文 |

时间归档

延伸阅读

常见问题

这次模型发布“Token Count vs. Agentic Depth: The Chinese AI Rivalry That Defines AGI's Future”的核心内容是什么？

The Chinese large language model arena witnessed an unprecedented convergence last week as two of its most prominent contenders — DeepSeek and Moonshot AI (Kimi) — released their l…

从“DeepSeek V4 vs Kimi K2.6 benchmark comparison”看，这个模型发布为什么重要？

The technical schism between DeepSeek V4 and Kimi K2.6 is best understood by examining their architectural choices and optimization targets. DeepSeek V4: The Scaling Continuation DeepSeek V4 is built on a dense transform…

围绕“Yang Zhilin agentic AI philosophy explained”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。