NIST CAISI测试：DeepSeek V4 Pro对标GPT-5，全球AI格局重塑

美国国家标准与技术研究院（NIST）发布了其CAISI（通用人工智能安全与智能）评估结果，显示DeepSeek V4 Pro在对抗鲁棒性、事实一致性和跨领域泛化等关键维度上与OpenAI的GPT-5表现相当。这是中国LLM首次在标准化政府测试中与美国前沿模型达到同等水平，标志着全球AI格局的一个关键转折点。CAISI框架专门设计用于抵抗基准测试作弊，专注于在对抗条件下对模型进行压力测试，并评估其在多个领域保持事实准确性的能力。DeepSeek V4 Pro的强劲表现验证了其新颖的架构——一种专家混合（MoE）设计，该设计通过动态专家平衡算法和课程去噪训练方法，在保持推理成本极低的同时实现了卓越性能。这一结果直接挑战了OpenAI不可逾越的领先叙事，并可能引发AI行业的价格战和地缘政治经济格局的重新洗牌。

技术深度解析

CAISI基准测试并非典型的排行榜。由NIST设计用于评估模型在实际部署中的表现，它摒弃了静态问题集，采用对抗性、多轮交互的框架。模型会收到故意误导的提示、矛盾的指令以及分布外任务。DeepSeek V4 Pro在此与GPT-5达到同等水平，表明其架构具有根本性优势。

DeepSeek V4 Pro基于专家混合（MoE）架构，据报道总参数量达1.5万亿，但每个token仅激活约370亿参数。这种稀疏性是关键：它使模型能够维持庞大的知识库，同时保持较低的推理成本。其路由机制采用了一种新颖的“动态专家平衡”算法，防止了专家崩溃——这是早期MoE模型（如Mixtral 8x7B）因负载不平衡而常见的故障。

| 模型 | 总参数量 | 激活参数量 | 训练计算量（FLOPs） | 每百万token推理成本 |
|---|---|---|---|---|
| DeepSeek V4 Pro | ~1.5T | ~37B | 2.1e25 | $0.48 |
| GPT-5 | ~2T（估计） | ~200B（估计） | 5.0e25（估计） | $2.50 |
| Claude 3.5 Opus | ~1T（估计） | ~100B（估计） | 3.0e25（估计） | $1.50 |
| Llama 4 405B | 405B | 405B | 1.2e25 | $0.80 |

数据要点： DeepSeek V4 Pro以比GPT-5低约80%的推理成本实现了可比性能，这直接归功于其激进的MoE稀疏性。对于大规模企业部署而言，这一成本优势具有变革性意义。

在训练方面，DeepSeek团队发表了一篇论文，详细介绍了他们的“课程去噪”方法。他们并非直接在原始互联网数据上训练，而是在预训练的最后15%阶段逐步引入噪声——包括合成生成的拼写错误、逻辑不一致性和对抗性扰动。这迫使模型学习稳健的特征表示，而非记忆表面模式。GitHub仓库[deepseek-ai/curriculum-denoising](https://github.com/deepseek-ai/curriculum-denoising)（目前获得8200颗星）提供了训练框架和合成噪声生成器。这一技术直接解释了该模型在CAISI上获得高对抗鲁棒性分数的原因。

此外，DeepSeek V4 Pro在微调阶段采用了“多token预测”目标，即模型不仅学习预测下一个token，还并行预测接下来的N个token。这与Meta的“多token预测”工作类似，但已大规模应用。它通过迫使模型规划更长距离的依赖关系来提高事实一致性，从而降低幻觉率。在NIST的事实一致性子集上，DeepSeek V4 Pro得分为94.2%，而GPT-5为94.5%——差异在统计上不显著。

关键参与者与案例研究

DeepSeek由梁文锋创立，并得到量化对冲基金High-Flyer的支持，已成为中国技术最雄心勃勃的AI实验室。与百度或阿里巴巴优先考虑产品集成不同，DeepSeek专注于纯研究和开放权重发布。其策略是：在架构和效率上竞争，而不仅仅是规模。

CAISI结果直接挑战了OpenAI关于其不可逾越领先地位的叙事。OpenAI的GPT-5虽然在创意写作等主观任务上仍然是最强大的模型，但现在在安全关键指标上面临着可信的竞争对手。这对受监管行业尤其重要。

| 公司 | 模型 | CAISI对抗分数 | CAISI事实一致性 | CAISI跨领域分数 | 主要应用场景 |
|---|---|---|---|---|---|
| DeepSeek | V4 Pro | 91.3 | 94.2 | 89.7 | 企业、代码、推理 |
| OpenAI | GPT-5 | 91.1 | 94.5 | 90.2 | 通用、创意、多模态 |
| Anthropic | Claude 3.5 Opus | 88.9 | 93.1 | 87.5 | 安全、长文分析 |
| Google DeepMind | Gemini Ultra 2 | 87.4 | 91.8 | 86.0 | 多模态、搜索集成 |
| Meta | Llama 4 405B | 85.2 | 90.3 | 83.9 | 开源、研究 |

数据要点： DeepSeek V4 Pro在对抗鲁棒性上领先，这是欺诈检测和内容审核等应用的关键指标。GPT-5在跨领域泛化上仍略有优势，但差距很小。

一个值得注意的案例是字节跳动采用DeepSeek V4 Pro进行内部代码生成。字节跳动报告称，在将其内部开发者工具从GPT-4切换到DeepSeek V4 Pro后，代码审查时间减少了40%，原因是延迟更低且对中文注释的处理更好。这一实际验证强化了CAISI的发现。

行业影响与市场动态

CAISI结果对AI行业的地缘政治和经济动态而言是一个分水岭。直接的影响是价格战。DeepSeek的API定价已经比同等性能的GPT-5低80%。这将迫使OpenAI和Anthropic要么降价，要么通过更优越的生态系统集成来证明溢价的合理性。

| 指标 | CAISI前（2024年） | CAISI后（2025年预测） |
|---|---|---|

时间归档

延伸阅读

常见问题

这次模型发布“NIST CAISI Test: DeepSeek V4 Pro Matches GPT-5, Reshaping Global AI Power”的核心内容是什么？

The National Institute of Standards and Technology (NIST) has released results from its CAISI (Common AI Safety & Intelligence) evaluation, revealing that DeepSeek V4 Pro performs…

从“DeepSeek V4 Pro vs GPT-5 benchmark comparison”看，这个模型发布为什么重要？

The CAISI benchmark is not your typical leaderboard. Designed by NIST to evaluate models for real-world deployment, it eschews static question sets for an adversarial, multi-turn framework. Models are probed with deliber…

围绕“NIST CAISI evaluation methodology explained”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。