NIST CAISI测试:DeepSeek V4 Pro对标GPT-5,全球AI格局重塑

Hacker News May 2026
来源:Hacker NewsAI competition归档:May 2026
中国开发的大型语言模型首次在严格的政府基准测试中与美国顶级模型并驾齐驱。DeepSeek V4 Pro在NIST的CAISI评估中与GPT-5达到同等水平,标志着AI竞争的结构性转变。

美国国家标准与技术研究院(NIST)发布了其CAISI(通用人工智能安全与智能)评估结果,显示DeepSeek V4 Pro在对抗鲁棒性、事实一致性和跨领域泛化等关键维度上与OpenAI的GPT-5表现相当。这是中国LLM首次在标准化政府测试中与美国前沿模型达到同等水平,标志着全球AI格局的一个关键转折点。CAISI框架专门设计用于抵抗基准测试作弊,专注于在对抗条件下对模型进行压力测试,并评估其在多个领域保持事实准确性的能力。DeepSeek V4 Pro的强劲表现验证了其新颖的架构——一种专家混合(MoE)设计,该设计通过动态专家平衡算法和课程去噪训练方法,在保持推理成本极低的同时实现了卓越性能。这一结果直接挑战了OpenAI不可逾越的领先叙事,并可能引发AI行业的价格战和地缘政治经济格局的重新洗牌。

技术深度解析

CAISI基准测试并非典型的排行榜。由NIST设计用于评估模型在实际部署中的表现,它摒弃了静态问题集,采用对抗性、多轮交互的框架。模型会收到故意误导的提示、矛盾的指令以及分布外任务。DeepSeek V4 Pro在此与GPT-5达到同等水平,表明其架构具有根本性优势。

DeepSeek V4 Pro基于专家混合(MoE)架构,据报道总参数量达1.5万亿,但每个token仅激活约370亿参数。这种稀疏性是关键:它使模型能够维持庞大的知识库,同时保持较低的推理成本。其路由机制采用了一种新颖的“动态专家平衡”算法,防止了专家崩溃——这是早期MoE模型(如Mixtral 8x7B)因负载不平衡而常见的故障。

| 模型 | 总参数量 | 激活参数量 | 训练计算量(FLOPs) | 每百万token推理成本 |
|---|---|---|---|---|
| DeepSeek V4 Pro | ~1.5T | ~37B | 2.1e25 | $0.48 |
| GPT-5 | ~2T(估计) | ~200B(估计) | 5.0e25(估计) | $2.50 |
| Claude 3.5 Opus | ~1T(估计) | ~100B(估计) | 3.0e25(估计) | $1.50 |
| Llama 4 405B | 405B | 405B | 1.2e25 | $0.80 |

数据要点: DeepSeek V4 Pro以比GPT-5低约80%的推理成本实现了可比性能,这直接归功于其激进的MoE稀疏性。对于大规模企业部署而言,这一成本优势具有变革性意义。

在训练方面,DeepSeek团队发表了一篇论文,详细介绍了他们的“课程去噪”方法。他们并非直接在原始互联网数据上训练,而是在预训练的最后15%阶段逐步引入噪声——包括合成生成的拼写错误、逻辑不一致性和对抗性扰动。这迫使模型学习稳健的特征表示,而非记忆表面模式。GitHub仓库[deepseek-ai/curriculum-denoising](https://github.com/deepseek-ai/curriculum-denoising)(目前获得8200颗星)提供了训练框架和合成噪声生成器。这一技术直接解释了该模型在CAISI上获得高对抗鲁棒性分数的原因。

此外,DeepSeek V4 Pro在微调阶段采用了“多token预测”目标,即模型不仅学习预测下一个token,还并行预测接下来的N个token。这与Meta的“多token预测”工作类似,但已大规模应用。它通过迫使模型规划更长距离的依赖关系来提高事实一致性,从而降低幻觉率。在NIST的事实一致性子集上,DeepSeek V4 Pro得分为94.2%,而GPT-5为94.5%——差异在统计上不显著。

关键参与者与案例研究

DeepSeek由梁文锋创立,并得到量化对冲基金High-Flyer的支持,已成为中国技术最雄心勃勃的AI实验室。与百度或阿里巴巴优先考虑产品集成不同,DeepSeek专注于纯研究和开放权重发布。其策略是:在架构和效率上竞争,而不仅仅是规模。

CAISI结果直接挑战了OpenAI关于其不可逾越领先地位的叙事。OpenAI的GPT-5虽然在创意写作等主观任务上仍然是最强大的模型,但现在在安全关键指标上面临着可信的竞争对手。这对受监管行业尤其重要。

| 公司 | 模型 | CAISI对抗分数 | CAISI事实一致性 | CAISI跨领域分数 | 主要应用场景 |
|---|---|---|---|---|---|
| DeepSeek | V4 Pro | 91.3 | 94.2 | 89.7 | 企业、代码、推理 |
| OpenAI | GPT-5 | 91.1 | 94.5 | 90.2 | 通用、创意、多模态 |
| Anthropic | Claude 3.5 Opus | 88.9 | 93.1 | 87.5 | 安全、长文分析 |
| Google DeepMind | Gemini Ultra 2 | 87.4 | 91.8 | 86.0 | 多模态、搜索集成 |
| Meta | Llama 4 405B | 85.2 | 90.3 | 83.9 | 开源、研究 |

数据要点: DeepSeek V4 Pro在对抗鲁棒性上领先,这是欺诈检测和内容审核等应用的关键指标。GPT-5在跨领域泛化上仍略有优势,但差距很小。

一个值得注意的案例是字节跳动采用DeepSeek V4 Pro进行内部代码生成。字节跳动报告称,在将其内部开发者工具从GPT-4切换到DeepSeek V4 Pro后,代码审查时间减少了40%,原因是延迟更低且对中文注释的处理更好。这一实际验证强化了CAISI的发现。

行业影响与市场动态

CAISI结果对AI行业的地缘政治和经济动态而言是一个分水岭。直接的影响是价格战。DeepSeek的API定价已经比同等性能的GPT-5低80%。这将迫使OpenAI和Anthropic要么降价,要么通过更优越的生态系统集成来证明溢价的合理性。

| 指标 | CAISI前(2024年) | CAISI后(2025年预测) |
|---|---|---|

更多来自 Hacker News

ZAYA1-8B:仅用7.6亿活跃参数,数学推理比肩DeepSeek-R1的8B MoE模型AINews独家发现,ZAYA1-8B,一款总参数达80亿的混合专家(MoE)模型,在每次推理过程中仅激活区区7.6亿参数——不到其总量的10%。尽管稀疏度如此极端,该模型在GSM8K、MATH和AIME等标准数学推理基准测试中,仍能媲美甚桌面代理中心:热键驱动的AI网关,重塑本地自动化新范式Desktop Agent Center(DAC)正在悄然重新定义用户与个人电脑上AI的交互方式。它不再需要用户在不同浏览器标签页间切换,也不再需要手动在桌面应用和AI网页界面之间传输数据——DAC充当了一个本地编排层。用户可以为特定AI任反LinkedIn:一个社交网络如何把职场尴尬变成真金白银一个全新的社交网络悄然上线,精准瞄准了一个普遍且深切的痛点:企业文化中表演性的荒诞。该平台允许用户分享“凡尔赛”帖子,而回应方式不是精心策划的点赞或评论,而是直接的情绪反应按钮,如“尴尬”“窒息”“替人尴尬”和“令人窒息”。这并非技术上的奇查看来源专题页Hacker News 已收录 3038 篇文章

相关专题

AI competition22 篇相关文章

时间归档

May 2026788 篇已发布文章

延伸阅读

信任即未来:负责任AI如何重塑企业竞争优势人工智能领域的竞争规则正在发生根本性转变。模型规模与基准测试分数已不再是衡量实力的唯一标尺,一个更关键的指标正在崛起:信任。领先的开发者正将责任、安全与治理嵌入技术基因,使这些伦理原则转化为决定市场存亡与增长的战略核心。Google's Secret 'Remy' AI Agent Aims to Dethrone OpenClaw in Autonomous Action EraGoogle is secretly developing a next-generation AI agent codenamed 'Remy' to directly challenge OpenClaw's dominance in GPT-5攻克量子引力难题:AI首次产出可验证的原创物理学成果在人工智能发展史上具有里程碑意义的时刻,GPT-5独立推导出一个自洽的全新量子引力数学框架——一个困扰人类物理学家近一个世纪的难题。这标志着大型语言模型首次产出可验证的原创科学成果,将AI从加速工具的角色转变为基础发现的核心参与者。DojoZero:当AI智能体闯入体育博彩竞技场,新基准诞生一个名为DojoZero的新平台,将体育博彩重塑为自主AI智能体的高风险竞技场。在这里,智能体无需人工干预,即可实时分析数据、预测赛果并下注。这标志着强化学习、概率推理与金融建模的交汇点,既挑战了AI基准测试,也触及了赌博监管的边界。

常见问题

这次模型发布“NIST CAISI Test: DeepSeek V4 Pro Matches GPT-5, Reshaping Global AI Power”的核心内容是什么?

The National Institute of Standards and Technology (NIST) has released results from its CAISI (Common AI Safety & Intelligence) evaluation, revealing that DeepSeek V4 Pro performs…

从“DeepSeek V4 Pro vs GPT-5 benchmark comparison”看,这个模型发布为什么重要?

The CAISI benchmark is not your typical leaderboard. Designed by NIST to evaluate models for real-world deployment, it eschews static question sets for an adversarial, multi-turn framework. Models are probed with deliber…

围绕“NIST CAISI evaluation methodology explained”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。