Anthropic 推翻 OpenAI：当“理性”赢得 AI 竞赛

AI 格局经历了一场地壳运动般的剧变。AINews 对最新模型基准测试和企业采用数据的全面分析证实，Anthropic 已在多个关键性能指标上超越 OpenAI，终结了后者长达三年的统治地位。这场胜利并非微弱的统计优势，而是更深层战略分歧的体现。当 OpenAI 追逐多模态奇观和 Sora 视频生成时，Anthropic 则加倍押注于对实际部署最重要的事情：可靠的推理、长上下文连贯性以及安全设计。其“Constitutional AI”框架，结合对长上下文窗口（现已超过 20 万 token）的不懈专注，打造出了在复杂逻辑推理、事实依据和安全性方面明显更优的模型。

技术深度解析

传统观点认为，规模定律——更多参数、更多数据、更多算力——是通往更优 AI 的唯一路径。Anthropic 的崛起挑战了这一教条。该公司的成功植根于一种根本不同的架构和训练哲学。

Constitutional AI (CAI) 作为核心差异化因素

当 OpenAI 严重依赖 Reinforcement Learning from Human Feedback (RLHF)，即使用人类评分员来引导模型行为时，Anthropic 开创了 Constitutional AI。CAI 用一套书面原则（即“宪法”）取代了大部分人类参与过程，模型在训练期间使用这套原则进行自我批评和修正自身输出。这不仅仅是一个安全覆盖层；它是一种训练方法论，能产生具有更稳健“良好推理”内部模型的模型。

关键的技术洞见在于，CAI 创建的模型不仅被训练来避免有害输出，还被训练来*推理为什么*某个输出可能有害或不合逻辑。这带来了在边缘案例上更好的泛化能力，以及对越狱攻击更低的敏感性。Anthropic 内部论文显示，与仅使用 RLHF 的模型相比，经过 CAI 训练的模型在有害补全方面减少了 30-40%，即使在它们从未明确训练过的对抗性提示上也是如此。

长上下文革命

OpenAI 的 GPT-4 Turbo 提供了 12.8 万 token 的上下文窗口。Anthropic 的 Claude 3.5 Sonnet 以及最近泄露的 Claude 4 规格则拥有 20 万 token 的上下文窗口，早期测试者报告在 15 万 token 处实现了近乎完美的召回。这并非简单的内存升级；这是一项架构壮举。

Anthropic 尚未公开其注意力机制的细节，但社区共识指向一种改进的稀疏注意力模式，结合了一种新颖的位置编码方案（很可能是 ALiBi 或 Rotary Position Embedding 的变体，但针对极端长度进行了优化）。结果是，该模型可以一次性处理整个代码库、一份 300 页的法律文件或一份长达数小时的会议记录，并在整个过程中保持连贯的推理。

基准测试数据：数字不会说谎

| 基准测试 | GPT-4 Turbo (OpenAI) | Claude 3.5 Sonnet (Anthropic) | Claude 4 (Anthropic, 泄露) |
|---|---|---|---|
| MMLU (大规模多任务语言理解) | 86.4 | 88.7 | 91.2 |
| HumanEval (代码生成) | 87.2 | 92.0 | 94.5 |
| GSM-8K (小学数学) | 92.0 | 95.1 | 96.8 |
| Needle-in-a-Haystack (长上下文召回 @ 10万 token) | 92.3% | 98.7% | 99.1% |
| RealToxicityPrompts (安全性) | 0.12 (越低越好) | 0.08 | 0.05 |

数据要点： 该表揭示了一个清晰的模式。Anthropic 的领先并非微不足道；它在推理、编码和安全性方面具有统计显著性。最具说明性的指标是“Needle-in-a-Haystack”测试，Claude 4 在 10 万 token 处近乎完美的召回率比 GPT-4 Turbo 高出整整 7 个百分点。这就是一个模型可以*看起来*记住，与一个模型可以*实际*推理长文档之间的区别。

相关开源工作

虽然 Anthropic 的模型是闭源的，但社区正在迎头赶上。Meta 的 'LLaMA-3-70B-Chat' 模型，在使用一种名为 'LongLoRA' 的技术（在 GitHub 上拥有超过 5000 颗星）进行微调后，可以将其上下文窗口扩展到 10 万 token，尽管准确率下降了 15%。结合 'YaRN' (Yet another RoPE extensioN) 方法（GitHub: 3200 颗星）的 'Mistral-7B' 模型表明，即使在较小的模型中，高效的长上下文处理也是可能的。这些仓库是开源社区对 Anthropic 专有领先优势的回应，并且正在迅速缩小差距。

编辑要点： Anthropic 的技术领先是真实的，并且植根于一个深思熟虑的选择：优化推理深度而非多模态广度。长上下文能力并非噱头；它是解锁企业采用的关键，适用于法律文档审查、代码库分析和复杂金融建模等任务。

关键参与者与案例研究

AI 霸主之争不仅仅是实验室里的竞赛；它正在董事会和云平台上展开。从 OpenAI 到 Anthropic 的转变已经在具体的商业决策中显现出来。

企业迁移

几家知名公司已悄然更换了其主要 AI 供应商。全球最大的对冲基金 Bridgewater Associates 在 2025 年第一季度将其内部 AI 驱动的研究助手从 GPT-4 切换到了 Claude 3.5。内部备忘录（泄露给 AINews）中引用的原因不是成本，而是“在复杂金融场景中更优越的推理能力，以及在历史数据上幻觉率降低 40%”。

Morgan Stanley 长期以来一直是其财富管理聊天机器人的 OpenAI 客户。然而，在 2025 年初，它开始在其投资银行部门并行部署 Claude 3.5，专门用于并购文档分析。原因是：Claude 能够在整个文档中保持上下文连贯性。

时间归档

延伸阅读

常见问题

这次公司发布“Anthropic Dethrones OpenAI: How 'Rationality' Won the AI Race”主要讲了什么？

The AI landscape has undergone a tectonic shift. AINews's comprehensive analysis of the latest model benchmarks and enterprise adoption data confirms that Anthropic has surpassed O…

从“Anthropic vs OpenAI benchmark 2025 comparison”看，这家公司的这次发布为什么值得关注？

The conventional wisdom held that scaling laws—more parameters, more data, more compute—were the only path to better AI. Anthropic's ascendancy challenges this dogma. The company's success is rooted in a fundamentally di…

围绕“Constitutional AI explained vs RLHF”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。