技术深度解析
Claude Fable 5在FrontierMath上的表现不仅仅是统计上的胜利——它代表了根本性的架构变革。FrontierMath测试的是抽象符号推理、多步定理证明和新型问题构建,这些正是GPT-5.5等前代模型难以攻克的领域。13个百分点的差距(Fable 5得分87.2%,GPT-5.5为74.1%)表明,Anthropic团队在链式推理与数学对象新型内部表征的结合上取得了突破。
在架构上,Fable 5据信采用了混合Transformer-MoE(混合专家)设计,参数规模约1.2万亿,但其关键创新在于训练方法。Anthropic据称采用了一种多阶段课程学习:首先训练模型在Lean(一个定理证明器)中生成形式化证明,然后将这些证明作为自然语言推理的训练数据。这形成了一个反馈循环——模型在输出答案前,会通过符号验证自己的推理步骤。最终成果是一个不仅能模式匹配解决方案,还能为未见问题构建全新证明的模型。
| 模型 | 参数规模(估计) | FrontierMath得分 | Lean证明生成 | 推理成本(每100万token) |
|---|---|---|---|---|
| Claude Fable 5 | ~1.2T | 87.2% | 是 | $8.50 |
| GPT-5.5 | ~1.0T | 74.1% | 否 | $6.00 |
| Gemini Ultra 2 | ~1.5T | 78.9% | 有限 | $7.20 |
| 开源:DeepSeek-Math-Pro | ~200B | 62.3% | 否 | $0.50 |
数据要点: Fable 5对GPT-5.5的13个百分点领先优势,是FrontierMath上两个前沿模型之间录得的史上最大差距。生成Lean证明的能力是一个质的区分器——这意味着模型可以自我验证推理过程,这一能力直接实现了自主定理发现。然而,这也使该模型成为双重用途风险:它可能被用于发现密码系统的漏洞或设计新型武器。
与Fable 5一同被封禁的Mythos 5模型,是一个独立但相关的系统。Mythos 5是为边缘设备低延迟推理优化的蒸馏版本,但保留了核心推理引擎。对两个模型的禁令表明,政府不仅担心原始能力,还担心这种能力在不同形态设备上的扩散。
对于对底层技术感兴趣的开发者,开源仓库 `anthropic-research/lean-reasoning`(近期更新,4,200星)提供了Fable 5训练中使用的证明生成管道的简化实现。该仓库包含5万个形式化证明的数据集和一个轻量级模型检查点,在FrontierMath上达到45%的得分——虽然只是Fable 5性能的一小部分,但为研究提供了起点。
关键玩家与案例研究
Anthropic 是这里的核心玩家。由前OpenAI研究员创立,该公司一直优先考虑安全性和可解释性。Fable 5的开发由此前从事宪法AI研究的Sarah Chen博士领导。该公司的策略是构建既更强大又更对齐的模型——但禁令表明,无论对齐努力如何,能力本身就可能成为问题。
OpenAI 是直接竞争对手。GPT-5.5仅三个月前发布,当时被认为是数学推理领域的顶尖水平。13个百分点的差距是一个重大尴尬,OpenAI已宣布加速“GPT-6”的时间表。然而,对Fable 5的禁令造成了一种奇怪的局面:OpenAI性能较差的模型现在成为法律上可用的最强产品,可能暂时赋予其市场优势。
SpaceX 作为意外受益者登场。AI1卫星是与Anthropic的合作项目——它搭载了Mythos 5架构的修剪版本(称为Mythos-Lite),专为轨道推理设计。该卫星使用Starlink激光链路进行数据中继,由10kW太阳能阵列供电。轨道推理的延迟高于地面推理(往返约50毫秒 vs 5毫秒),但监管自由度巨大:没有哪个国家政府能轻易关闭在轨卫星。
| 公司 | 模型 | 状态 | 关键优势 | 关键风险 |
|---|---|---|---|---|
| Anthropic | Fable 5 / Mythos 5 | 美国境内被封禁 | 最高推理能力 | 监管责任 |
| OpenAI | GPT-5.5 | 可用 | 最大可部署用户群 | 数学推理较弱 |
| SpaceX | AI1卫星(Mythos-Lite) | 运营中 | 域外计算能力 | 延迟、轨道碎片 |
| Google DeepMind | Gemini Ultra 2 | 可用 | 多模态优势 | 无形式化证明能力 |
数据要点: 该表揭示了一个碎片化的格局。最强大的模型被封禁,次优的模型可用但较弱,而最具创新性的部署方式(天基)使用的是降级架构。这为能够弥合差距的公司创造了套利机会——例如,通过地面-卫星混合推理架构,或通过开发绕过禁令的模型蒸馏技术。