技术深度剖析
DeepSeek V4与Kimi K2.6之间的技术分野,通过审视其架构选择与优化目标,便能得到最佳理解。
DeepSeek V4:扩展之路的延续
DeepSeek V4构建于密集Transformer架构之上,估计拥有1.8万亿参数,相较于V3的671B(通过混合专家模型,每个Token激活37B)有了显著提升。团队将训练数据集翻倍至约28万亿Token,这些数据来自精炼的网络语料库、多语言书籍以及由早期模型迭代生成的合成数据。训练过程估计消耗了630万GPU小时,运行在一个由10,000块H800 GPU组成的集群上,并采用了一种新颖的流水线并行方案,与V3相比,将节点间通信开销降低了40%。DeepSeek已在GitHub上以仓库`deepseek-ai/DeepSeek-V4-Train`开源了训练基础设施代码,上线首周即获得超过4200颗星。该模型在MMLU上报告达到89.1%(V3为86.7%),在GSM8K上达到92.3%。然而,在GAIA(通用AI助手基准测试)等智能体任务上,其表现落后,仅为67.4%,这表明原始知识并不能自动转化为有效的工具使用能力。
Kimi K2.6:智能体优先架构
Kimi K2.6采取了一种根本不同的方法。杨植麟的团队并未追求最大化参数数量,而是聚焦于三项核心创新:一个100万Token的上下文窗口(从K2.0的20万Token提升而来)、一个将外部工具调用作为一等操作的模块化智能体循环,以及一项新颖的“上下文蒸馏”技术,可将长历史压缩为紧凑的记忆向量。该模型本身估计拥有4000亿参数,但其有效能力通过调用外部API——网络搜索、代码解释器、数据库查询,甚至机器人控制接口——经由一个结构化的动作空间得到了放大。智能体循环通过一个基于人类反馈的强化学习(RLHF)流程实现,其中奖励模型不仅对最终答案评分,还对中间步骤进行评分:工具选择、查询制定和错误恢复。这在开源仓库`moonshot-ai/kimi-agent-core`(2800颗星)中有详细说明。在GAIA基准测试中,Kimi K2.6得分81.2%;在SWE-bench(软件工程任务)上,它达到44.7%,而DeepSeek V4为31.2%。然而,在纯知识回忆(MMLU)上,它得分为84.5%——表现可观但并非领先。
| 基准测试 | DeepSeek V4 | Kimi K2.6 | 差值 |
|---|---|---|---|
| MMLU(知识) | 89.1% | 84.5% | +4.6% DeepSeek |
| GSM8K(数学) | 92.3% | 88.1% | +4.2% DeepSeek |
| GAIA(智能体) | 67.4% | 81.2% | +13.8% Kimi |
| SWE-bench(编码) | 31.2% | 44.7% | +13.5% Kimi |
| 长上下文回忆(100万Token) | 72.1% | 89.6% | +17.5% Kimi |
数据要点: 这些数字揭示出清晰的专业化分工。DeepSeek V4在静态知识和推理基准测试中占据主导地位,而Kimi K2.6则在动态、交互式任务中表现出色。长上下文方面的差距尤其引人注目——Kimi的100万Token窗口和上下文蒸馏技术为其带来了17.5个百分点的优势,这对于法律文档分析或代码库理解等企业级用例至关重要。
关键参与者与案例研究
DeepSeek(中国杭州)
由梁文锋创立的DeepSeek,已成为中国最激进的扩展倡导者。该组织秉持研究优先的文化,发布详细的技术报告并开源模型。DeepSeek V3在2024年末因以极低的训练成本实现GPT-4级别的性能而风靡一时。V4延续了这一轨迹,但团队面临一个战略性问题:仅靠扩展能维持领先地位多久?该模型较弱的智能体性能表明,缺乏行动能力的纯知识可能会限制其在现实世界中的部署。
Moonshot AI(中国北京)—— Kimi
杨植麟,前Google Brain研究员、卡内基梅隆大学博士,已将Kimi定位为“智能体AI”的倡导者。该公司在2025年初以85亿美元估值完成了12亿美元的B轮融资,投资者包括阿里巴巴和红杉中国。Kimi的产品策略与其模型紧密集成:Kimi Chat应用已支持浏览、文件分析和代码执行。K2.6旨在驱动自主工作流——从爬取网络并综合数据的市场研究报告,到编写和运行代码的自动化软件测试。杨植麟公开表示:“AI的下一个10倍改进将不会来自更大的模型,而是来自能够行动的模型。”
| 公司 | 模型 | 参数数量 | 训练成本(估计) | 主要优势 | 关键投资者 |
|---|---|---|---|---|---|
| DeepSeek | V4 | 1.8T(密集) | 2800万美元 | 知识与推理 | 自筹资金,VC轮待定 |
| Moonshot AI | K2.6 | 400B(密集) | 1200万美元 | 智能体任务与长上下文 | 阿里巴巴,红杉中国 |
| 百度 | ERNIE 5.0 | 1.2T(MoE) | 2200万美元 | 中文 |