Agent终极考试：Fable 5得零分，GPT 5.5称霸AI竞技场

Agent终极考试，一项旨在测试AI系统在复杂、多步骤自主任务上表现的全新严苛评估，给出了一个令人震惊的结论。Fable 5，这个因其叙事生成和对话能力而在业界引起广泛关注的模型，在最高难度级别上完全失败，得了零分。与此形成鲜明对比的是，OpenAI的最新迭代版本GPT 5.5取得了完美的通过率，展示了强大的规划、记忆和执行能力。该考试模拟了需要数十个连续步骤、自适应策略修订和长期奖励追踪的真实世界场景，有效地重新绘制了竞争格局。它证实了AI竞争的下一个前沿不再是生成看似合理的文本，而是关于真正的自主行动能力。

技术深度解析

Agent终极考试并非典型的多项选择题或论文基准测试。它是一个程序化的、交互式的考验，AI必须在模拟环境中导航以实现一个高层次目标。Fable 5未能通过的最高难度级别，涉及的任务包括“在模拟港口关闭后，规划并执行一个多城市供应链改道，需考虑实时天气数据、燃油成本和司机可用性，模拟周期为72小时”。这要求模型在数百个步骤中维持一个连贯的世界状态，在子目标失败时修订计划，并正确地将延迟的奖励（例如，最终的成本节约）归因于早期的决策。

Fable 5的架构基于一个上下文窗口相对较短、注意力机制简单的Transformer，在这种任务中表现挣扎。其内部的“世界模型”本质上是下一个词元预测过程的瞬时副产品。当任务要求在处理天气更新和司机病假电话的同时，在记忆中保持特定的库存数量时，模型的表征能力就会下降。核心问题是信用分配的失败。用强化学习的术语来说，Fable 5无法将最终的奖励信号沿着长长的动作链条反向传播。其梯度在任务时间跨度上实际上消失了。

另一方面，GPT 5.5似乎实现了一种研究界暂时称之为“时间线压缩”或“分层时间抽象”的新机制。虽然确切的架构是专有的，但其性能表现表明，它可以学习将一系列动作压缩成更高层次的“技能”或“选项”。当像“通过替代高速公路重新规划卡车路线”这样的子任务重复出现时，GPT 5.5会将其抽象为一个单一单元，从而释放认知资源用于更高层次的规划。这在概念上类似于开源`hierarchical-rl`仓库（一个包含选项和封建网络实现的集合，目前约有2300颗星）中看到的时间抽象工作，但GPT 5.5的实现很可能在复杂程度上高出数个数量级，并直接集成到了Transformer架构中。

一个关键的技术区别在于长期记忆管理。Fable 5依赖于一个上下文窗口约为20万词元的标准注意力机制。据传，GPT 5.5使用了一种混合方法，结合了大型上下文窗口（估计为100万词元）和一个压缩的、可微分的记忆库，该记忆库充当世界状态的草稿本。这使其能够“忘记”不相关的细节，同时保留关键的状态变量（例如，“当前燃油量：40%”，“预计到达仓库时间：2.3小时”）。

| 模型 | 上下文窗口 | 世界模型类型 | 信用分配 | 最高难度级别得分 |
|---|---|---|---|---|
| Fable 5 | ~20万词元 | 瞬态（下一个词元） | 弱（梯度消失） | 0% |
| GPT 5.5 | ~100万词元 + 压缩记忆 | 持久、分层 | 强（时间线压缩） | 100% |
| Claude 4（估计） | ~50万词元 | 混合 | 中等 | 65% |
| Gemini Ultra 2 | ~200万词元 | 瞬态（大上下文） | 弱 | 30% |

数据要点： 该表格揭示了一个明显的相关性：拥有持久、分层世界模型和强信用分配机制的模型在最高难度任务中占据主导地位。简单地扩展上下文窗口（如Gemini Ultra 2所尝试的）是不够的；架构必须主动管理和压缩信息，而不仅仅是存储信息。

关键参与者与案例研究

这场戏剧的主要主角是Fable 5和GPT 5.5的开发者。Fable 5由Anthropic开发，这家公司长期以来一直倡导安全性和可解释性。他们对“宪法AI”以及有益、无害对话的关注，产生了一个在细致入微的对话中表现出色的模型，但显然忽视了实现稳健自主行动所需的工程能力。这是一个战略误判。Anthropic的CEO Dario Amodei此前曾淡化智能体基准测试的重要性，认为通用智能会从更好的语言理解中涌现。Agent终极考试表明这一论点是有缺陷的。

OpenAI凭借GPT 5.5采取了相反的方法。在Sam Altman的领导下，该公司积极追求“智能体”能力，大力投资于代码执行、工具使用和长期规划。GPT 5.5的成功验证了他们的赌注：AI领域的下一个1000亿美元价值将来自能够“做”而不仅仅是“说”的模型。

其他值得注意的参与者包括Google DeepMind的Gemini Ultra 2，它在最高难度级别上获得了尚可的30%的分数。DeepMind在强化学习方面的优势（从AlphaGo到AlphaFold）使他们对信用分配有着深刻的理论理解，但其模型的架构仍然过于依赖蛮力式的大上下文窗口。Meta的Llama 4，虽然未正式提交，但据传得分约为

时间归档

延伸阅读

常见问题

这次模型发布“Agent Final Exam: Fable 5 Scores Zero, GPT 5.5 Dominates the AI Arena”的核心内容是什么？

The Agent Final Exam, a rigorous new evaluation designed to test AI systems on complex, multi-step autonomous tasks, has delivered a shocking verdict. Fable 5, a model that had gen…

从“What is the Agent Final Exam benchmark and how does it test AI models?”看，这个模型发布为什么重要？

The Agent Final Exam is not your typical multiple-choice or essay benchmark. It is a procedural, interactive gauntlet where an AI must navigate a simulated environment to achieve a high-level goal. The hardest tier, whic…

围绕“Why did Fable 5 score zero on the hardest Agent Final Exam tasks?”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。