技术深度解析
Agent终极考试并非典型的多项选择题或论文基准测试。它是一个程序化的、交互式的考验,AI必须在模拟环境中导航以实现一个高层次目标。Fable 5未能通过的最高难度级别,涉及的任务包括“在模拟港口关闭后,规划并执行一个多城市供应链改道,需考虑实时天气数据、燃油成本和司机可用性,模拟周期为72小时”。这要求模型在数百个步骤中维持一个连贯的世界状态,在子目标失败时修订计划,并正确地将延迟的奖励(例如,最终的成本节约)归因于早期的决策。
Fable 5的架构基于一个上下文窗口相对较短、注意力机制简单的Transformer,在这种任务中表现挣扎。其内部的“世界模型”本质上是下一个词元预测过程的瞬时副产品。当任务要求在处理天气更新和司机病假电话的同时,在记忆中保持特定的库存数量时,模型的表征能力就会下降。核心问题是信用分配的失败。用强化学习的术语来说,Fable 5无法将最终的奖励信号沿着长长的动作链条反向传播。其梯度在任务时间跨度上实际上消失了。
另一方面,GPT 5.5似乎实现了一种研究界暂时称之为“时间线压缩”或“分层时间抽象”的新机制。虽然确切的架构是专有的,但其性能表现表明,它可以学习将一系列动作压缩成更高层次的“技能”或“选项”。当像“通过替代高速公路重新规划卡车路线”这样的子任务重复出现时,GPT 5.5会将其抽象为一个单一单元,从而释放认知资源用于更高层次的规划。这在概念上类似于开源`hierarchical-rl`仓库(一个包含选项和封建网络实现的集合,目前约有2300颗星)中看到的时间抽象工作,但GPT 5.5的实现很可能在复杂程度上高出数个数量级,并直接集成到了Transformer架构中。
一个关键的技术区别在于长期记忆管理。Fable 5依赖于一个上下文窗口约为20万词元的标准注意力机制。据传,GPT 5.5使用了一种混合方法,结合了大型上下文窗口(估计为100万词元)和一个压缩的、可微分的记忆库,该记忆库充当世界状态的草稿本。这使其能够“忘记”不相关的细节,同时保留关键的状态变量(例如,“当前燃油量:40%”,“预计到达仓库时间:2.3小时”)。
| 模型 | 上下文窗口 | 世界模型类型 | 信用分配 | 最高难度级别得分 |
|---|---|---|---|---|
| Fable 5 | ~20万词元 | 瞬态(下一个词元) | 弱(梯度消失) | 0% |
| GPT 5.5 | ~100万词元 + 压缩记忆 | 持久、分层 | 强(时间线压缩) | 100% |
| Claude 4(估计) | ~50万词元 | 混合 | 中等 | 65% |
| Gemini Ultra 2 | ~200万词元 | 瞬态(大上下文) | 弱 | 30% |
数据要点: 该表格揭示了一个明显的相关性:拥有持久、分层世界模型和强信用分配机制的模型在最高难度任务中占据主导地位。简单地扩展上下文窗口(如Gemini Ultra 2所尝试的)是不够的;架构必须主动管理和压缩信息,而不仅仅是存储信息。
关键参与者与案例研究
这场戏剧的主要主角是Fable 5和GPT 5.5的开发者。Fable 5由Anthropic开发,这家公司长期以来一直倡导安全性和可解释性。他们对“宪法AI”以及有益、无害对话的关注,产生了一个在细致入微的对话中表现出色的模型,但显然忽视了实现稳健自主行动所需的工程能力。这是一个战略误判。Anthropic的CEO Dario Amodei此前曾淡化智能体基准测试的重要性,认为通用智能会从更好的语言理解中涌现。Agent终极考试表明这一论点是有缺陷的。
OpenAI凭借GPT 5.5采取了相反的方法。在Sam Altman的领导下,该公司积极追求“智能体”能力,大力投资于代码执行、工具使用和长期规划。GPT 5.5的成功验证了他们的赌注:AI领域的下一个1000亿美元价值将来自能够“做”而不仅仅是“说”的模型。
其他值得注意的参与者包括Google DeepMind的Gemini Ultra 2,它在最高难度级别上获得了尚可的30%的分数。DeepMind在强化学习方面的优势(从AlphaGo到AlphaFold)使他们对信用分配有着深刻的理论理解,但其模型的架构仍然过于依赖蛮力式的大上下文窗口。Meta的Llama 4,虽然未正式提交,但据传得分约为