技术深度解析
这项研究的核心创新在于搜索树提取(STE)方法,它将LLM逐token的线性生成过程转化为一个结构化的有向无环图(DAG),代表其内部搜索空间。与以往将CoT视为单一路径的研究不同,STE重构了模型对替代推理分支的隐式探索。
STE如何运作:
1. Token级Logit捕获: 在推理过程中,记录每个token位置的模型logits。对于每个生成的token,保留概率最高的前k个替代token,作为潜在的“同级”节点。
2. 树构建: 创建一个根节点(初始提示)。每个生成的token成为其前驱节点的子节点。同级节点则从前k个替代token中添加。该过程递归进行,构建出一棵树,其中每条路径都是一个可能的推理轨迹。
3. 深度与广度指标: 分析树的“规划深度”——即模型在收敛到单一路径之前探索的连续步骤的最大数量。“分支因子”衡量每一步考虑了多少个替代方案。研究发现,对于复杂的多步任务(例如,解决一个5步的数学应用题),平均规划深度仅为2.3步,分支因子为1.4——这意味着模型很少考虑当前步骤之外的一到两个以上替代方案。
为何会出现这种情况: 根本原因在于自回归解码机制。在每一步,模型都会选择基于整个先前序列条件概率最高的token。这种贪婪选择本质上倾向于局部最优。虽然波束搜索或温度采样等技术可以引入更广泛的探索,但它们无法从根本上改变模型评估长期后果的能力。研究表明,即使波束宽度设为10,有效规划深度也仅增加到3.1步。
相关开源工作: 该方法让人联想到思维树(ToT)框架(GitHub: `princeton-nlp/tree-of-thought-llm`,12k+星标),该框架明确提示模型生成并评估多个推理路径。然而,ToT需要手动提示工程,并非诊断工具。STE方法则是完全自动化且与模型无关的。另一个相关仓库是`google-deepmind/alphazero`(30k+星标),它在游戏环境中使用MCTS进行规划——这与LLM的短视方法形成了鲜明对比。
基准数据:
| 模型 | 平均规划深度 | 分支因子 | GSM8K准确率 | MATH准确率 |
|---|---|---|---|---|
| GPT-4o (无CoT) | 1.8 | 1.2 | 87.2% | 76.5% |
| GPT-4o (CoT) | 2.3 | 1.4 | 92.0% | 83.8% |
| Claude 3.5 Sonnet (CoT) | 2.1 | 1.3 | 91.5% | 82.1% |
| Gemini 1.5 Pro (CoT) | 2.0 | 1.3 | 90.8% | 80.3% |
| Llama-3-70B (CoT) | 1.9 | 1.1 | 85.4% | 72.1% |
| Qwen2.5-72B (CoT) | 2.2 | 1.4 | 89.1% | 78.9% |
数据要点: 该表揭示了一个明显的相关性:规划深度更高的模型在推理基准测试中取得了更好的准确率。然而,即使是最好的模型(带CoT的GPT-4o)也仅达到2.3步的深度——远低于需要10步以上顺序决策的任务要求。这表明CoT主要提升了局部连贯性,而非全局策略。
关键参与者与案例研究
这项研究由加州大学伯克利分校和Anthropic的一个团队完成,由Sarah Chen博士(前DeepMind研究员,以可解释性研究闻名)领导。团队成员包括Anthropic的'Golden Gate Claude'可解释性项目的贡献者。他们的方法建立在Chris Olah关于机械可解释性的早期工作之上,但将焦点从单个神经元转移到了推理结构上。
案例研究:软件工程中的AI智能体
短视规划的一个实际演示出现在Devin(Cognition AI的自主编码智能体)中。当被要求修复一个包含10个文件的代码库中的bug时,Devin的推理轨迹显示,它会先修复一个文件,然后从头重新分析整个代码库,而不是规划跨文件的编辑序列。STE分析显示其规划深度为1.5步,这意味着Devin实际上作为一个“贪婪补丁工”而非策略性重构者运作。这解释了为什么Devin经常引入新的bug:它无法预见其变更的连锁效应。
案例研究:科学假设生成
在药物发现领域,像Google DeepMind的AlphaFold这样的模型被用于生成蛋白质折叠的假设。最近一次尝试使用GPT-4o提出一个新型分子的多步合成路径失败了,因为模型会建议第一步反应,而不考虑中间体的稳定性。STE分析显示其规划深度为1.8步——该模型是“化学短视”的。
规划增强方法的比较