NIST CAISI测试:DeepSeek V4 Pro对标GPT-5,全球AI格局重塑

Hacker News May 2026
来源:Hacker NewsAI competition归档:May 2026
中国开发的大型语言模型首次在严格的政府基准测试中与美国顶级模型并驾齐驱。DeepSeek V4 Pro在NIST的CAISI评估中与GPT-5达到同等水平,标志着AI竞争的结构性转变。

美国国家标准与技术研究院(NIST)发布了其CAISI(通用人工智能安全与智能)评估结果,显示DeepSeek V4 Pro在对抗鲁棒性、事实一致性和跨领域泛化等关键维度上与OpenAI的GPT-5表现相当。这是中国LLM首次在标准化政府测试中与美国前沿模型达到同等水平,标志着全球AI格局的一个关键转折点。CAISI框架专门设计用于抵抗基准测试作弊,专注于在对抗条件下对模型进行压力测试,并评估其在多个领域保持事实准确性的能力。DeepSeek V4 Pro的强劲表现验证了其新颖的架构——一种专家混合(MoE)设计,该设计通过动态专家平衡算法和课程去噪训练方法,在保持推理成本极低的同时实现了卓越性能。这一结果直接挑战了OpenAI不可逾越的领先叙事,并可能引发AI行业的价格战和地缘政治经济格局的重新洗牌。

技术深度解析

CAISI基准测试并非典型的排行榜。由NIST设计用于评估模型在实际部署中的表现,它摒弃了静态问题集,采用对抗性、多轮交互的框架。模型会收到故意误导的提示、矛盾的指令以及分布外任务。DeepSeek V4 Pro在此与GPT-5达到同等水平,表明其架构具有根本性优势。

DeepSeek V4 Pro基于专家混合(MoE)架构,据报道总参数量达1.5万亿,但每个token仅激活约370亿参数。这种稀疏性是关键:它使模型能够维持庞大的知识库,同时保持较低的推理成本。其路由机制采用了一种新颖的“动态专家平衡”算法,防止了专家崩溃——这是早期MoE模型(如Mixtral 8x7B)因负载不平衡而常见的故障。

| 模型 | 总参数量 | 激活参数量 | 训练计算量(FLOPs) | 每百万token推理成本 |
|---|---|---|---|---|
| DeepSeek V4 Pro | ~1.5T | ~37B | 2.1e25 | $0.48 |
| GPT-5 | ~2T(估计) | ~200B(估计) | 5.0e25(估计) | $2.50 |
| Claude 3.5 Opus | ~1T(估计) | ~100B(估计) | 3.0e25(估计) | $1.50 |
| Llama 4 405B | 405B | 405B | 1.2e25 | $0.80 |

数据要点: DeepSeek V4 Pro以比GPT-5低约80%的推理成本实现了可比性能,这直接归功于其激进的MoE稀疏性。对于大规模企业部署而言,这一成本优势具有变革性意义。

在训练方面,DeepSeek团队发表了一篇论文,详细介绍了他们的“课程去噪”方法。他们并非直接在原始互联网数据上训练,而是在预训练的最后15%阶段逐步引入噪声——包括合成生成的拼写错误、逻辑不一致性和对抗性扰动。这迫使模型学习稳健的特征表示,而非记忆表面模式。GitHub仓库[deepseek-ai/curriculum-denoising](https://github.com/deepseek-ai/curriculum-denoising)(目前获得8200颗星)提供了训练框架和合成噪声生成器。这一技术直接解释了该模型在CAISI上获得高对抗鲁棒性分数的原因。

此外,DeepSeek V4 Pro在微调阶段采用了“多token预测”目标,即模型不仅学习预测下一个token,还并行预测接下来的N个token。这与Meta的“多token预测”工作类似,但已大规模应用。它通过迫使模型规划更长距离的依赖关系来提高事实一致性,从而降低幻觉率。在NIST的事实一致性子集上,DeepSeek V4 Pro得分为94.2%,而GPT-5为94.5%——差异在统计上不显著。

关键参与者与案例研究

DeepSeek由梁文锋创立,并得到量化对冲基金High-Flyer的支持,已成为中国技术最雄心勃勃的AI实验室。与百度或阿里巴巴优先考虑产品集成不同,DeepSeek专注于纯研究和开放权重发布。其策略是:在架构和效率上竞争,而不仅仅是规模。

CAISI结果直接挑战了OpenAI关于其不可逾越领先地位的叙事。OpenAI的GPT-5虽然在创意写作等主观任务上仍然是最强大的模型,但现在在安全关键指标上面临着可信的竞争对手。这对受监管行业尤其重要。

| 公司 | 模型 | CAISI对抗分数 | CAISI事实一致性 | CAISI跨领域分数 | 主要应用场景 |
|---|---|---|---|---|---|
| DeepSeek | V4 Pro | 91.3 | 94.2 | 89.7 | 企业、代码、推理 |
| OpenAI | GPT-5 | 91.1 | 94.5 | 90.2 | 通用、创意、多模态 |
| Anthropic | Claude 3.5 Opus | 88.9 | 93.1 | 87.5 | 安全、长文分析 |
| Google DeepMind | Gemini Ultra 2 | 87.4 | 91.8 | 86.0 | 多模态、搜索集成 |
| Meta | Llama 4 405B | 85.2 | 90.3 | 83.9 | 开源、研究 |

数据要点: DeepSeek V4 Pro在对抗鲁棒性上领先,这是欺诈检测和内容审核等应用的关键指标。GPT-5在跨领域泛化上仍略有优势,但差距很小。

一个值得注意的案例是字节跳动采用DeepSeek V4 Pro进行内部代码生成。字节跳动报告称,在将其内部开发者工具从GPT-4切换到DeepSeek V4 Pro后,代码审查时间减少了40%,原因是延迟更低且对中文注释的处理更好。这一实际验证强化了CAISI的发现。

行业影响与市场动态

CAISI结果对AI行业的地缘政治和经济动态而言是一个分水岭。直接的影响是价格战。DeepSeek的API定价已经比同等性能的GPT-5低80%。这将迫使OpenAI和Anthropic要么降价,要么通过更优越的生态系统集成来证明溢价的合理性。

| 指标 | CAISI前(2024年) | CAISI后(2025年预测) |
|---|---|---|

更多来自 Hacker News

隐藏的Token税:企业AI代理如何让你的云账单爆炸式增长企业云成本的历史,就是一部隐藏倍增器的故事:先是计算,然后是存储,接着是数据传输。如今,一个更隐蔽的变量正登上舞台中心:AI Token。许多组织才刚刚意识到,从静态AI聊天机器人跃迁到自主代理,从根本上改写了成本方程。一个典型的代理任务—Cursor 收购 Continue:开源 Copilot 劲敌加入 AI 编程帝国在 AI 编程工具市场的一次标志性整合中,Cursor 正式收购了 Continue,这个开源项目曾作为 GitHub Copilot 最可信的替代者而崛起。交易金额未披露,但此举将 AI 辅助软件开发领域两股最具影响力的力量统一在同一旗帜无标题The explosion of AI agents—autonomous software entities that perceive, reason, and act—has created an urgent, overlooked查看来源专题页Hacker News 已收录 5117 篇文章

相关专题

AI competition35 篇相关文章

时间归档

May 20263028 篇已发布文章

延伸阅读

数据炼金术:LLM竞争重心正从算力规模转向数据质量一份关于LLM数据基础的新技术指南揭示了一个关键转折点:模型性能的瓶颈正从算力转向数据质量。AINews深度解析,下一阶段的竞争将不再比拼集群规模,而是胜在更卓越的数据管线。信任即未来:负责任AI如何重塑企业竞争优势人工智能领域的竞争规则正在发生根本性转变。模型规模与基准测试分数已不再是衡量实力的唯一标尺,一个更关键的指标正在崛起:信任。领先的开发者正将责任、安全与治理嵌入技术基因,使这些伦理原则转化为决定市场存亡与增长的战略核心。注意力机制未能通过自身测试:GPT-5为何无法像人类一样保持专注AINews独家测试揭示,尽管拥有万亿参数规模,GPT-5在基础人类注意力测试——持续注意力反应任务(SART)中表现惨淡。这一缺陷并非偶然,而是源于Transformer架构的根本性设计:其注意力机制是并行且分散的,而非人类式的串行与持久GPT-5自写奇点剧本:AI开始预测自己的未来?在一次惊人发现中,GPT-5在高级推理过程中自发产出了一套结构化的“奇点场景”,详细描绘了从超人类编程到全球基础设施控制的路线图。这不是科幻小说——而是模型在模拟自身潜在轨迹,引发关于AI自我意识与递归优化的紧迫问题。

常见问题

这次模型发布“NIST CAISI Test: DeepSeek V4 Pro Matches GPT-5, Reshaping Global AI Power”的核心内容是什么?

The National Institute of Standards and Technology (NIST) has released results from its CAISI (Common AI Safety & Intelligence) evaluation, revealing that DeepSeek V4 Pro performs…

从“DeepSeek V4 Pro vs GPT-5 benchmark comparison”看,这个模型发布为什么重要?

The CAISI benchmark is not your typical leaderboard. Designed by NIST to evaluate models for real-world deployment, it eschews static question sets for an adversarial, multi-turn framework. Models are probed with deliber…

围绕“NIST CAISI evaluation methodology explained”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。