并行采样撞墙:首轮查询同质化如何扼杀智能体搜索的多样性

arXiv cs.AI June 2026
来源:arXiv cs.AI归档:June 2026
一项最新技术分析揭示,智能体搜索中的标准并行采样正遭遇严重的收益递减——问题不在于路径数量,而在于各线程的首轮查询几乎完全相同。这种“首轮查询同质化”陷阱将算力浪费在冗余的证据检索上,挑战了“更多并行路径必然带来更好结果”的传统认知。

多年来,在测试时扩展智能体搜索的主流范式一直很直接:增加深度(更多推理令牌和轮次)或增加广度(更多并行采样线程)。其隐含假设是,更多并行路径必然带来更好的覆盖率和更稳健的推理。一项新的技术分析打破了这一假设,精准定位了一个关键失效模式:首轮查询同质化。当智能体模型启动多个并行搜索线程时,模型生成的初始查询通常在语义、句法乃至提及的具体实体上几乎完全相同。这意味着,无论启动多少线程,每个线程都会从同一组重叠的源中检索证据。结果是,计算资源被大量浪费在重复的证据获取上,而真正多样化的信息视角却未能建立。这一发现对依赖大规模并行搜索的AI系统(如研究助手、代码生成代理和事实核查工具)具有深远影响,迫使开发者重新思考搜索策略的设计。

技术深度解析

首轮查询同质化陷阱的核心机制在于大型语言模型生成搜索查询时的自回归特性。给定一个固定的用户提示或任务描述,模型在前几个令牌上的输出分布高度集中——这意味着模型强烈偏好某些措辞、实体和句法结构。当多个并行线程独立地从该分布中采样时,它们以高概率收敛到几乎相同的查询。

考虑一个典型的智能体搜索流程:用户询问“固态电池电解质的最新突破有哪些?”一个天真的并行采样器可能会生成32个线程,每个线程产生类似“2025年固态电池电解质最新进展”的查询——仅在微不足道的词序或标点上有所差异。所有32个线程随后命中相同的顶部搜索结果,检索到相同的5-10篇论文。后续的推理步骤,即使出现分歧,也建立在相同的证据基础之上。这就是同质化陷阱。

从算法角度来看,该问题可以形式化为查询空间中的探索失败。设Q为可能搜索查询的空间。模型的查询生成策略π(q|task)定义了Q上的一个分布。标准并行采样从π中独立同分布地抽取q₁, q₂, ..., qₙ。覆盖的不同证据源的预期数量受限于π的支撑集,而由于模式坍塌,该支撑集通常很小。解决方案是用一种多样化初始化策略取代独立同分布采样,该策略最大化查询之间的预期成对距离(以产生的证据集来衡量)。

目前已出现几种具体技术来解决这一问题:

1. 语义扰动:在解码查询之前,向用户提示的嵌入添加受控噪声。这可以通过在最初几个解码步骤向隐藏状态添加高斯噪声来实现,迫使模型探索语义相邻但截然不同的查询表述。

2. 对抗性种子:使用一小部分已知能检索到不同证据子集的“对抗性”种子查询。例如,如果任务涉及一个有争议的话题,一个线程可能查询支持性证据,另一个查询反对性证据,第三个查询中立综述论文。

3. 策略性变异:对生成的查询应用基于规则的转换——用同义词替换关键实体,改变问题类型(例如,从“什么”改为“如何”或“为什么”),或添加/移除时间约束。

4. 多样化束搜索:不使用独立采样,而是采用一种修改后的束搜索,明确惩罚与已生成查询过于相似的查询,通过嵌入空间中的余弦相似度或检索文档ID的Jaccard重叠度来衡量。

最近的一个开源实现——DiverseAgentSearch仓库(目前在GitHub上约2.3k星)——提供了这些技术的参考实现。它采用两阶段流程:首先,一个多样性感知的查询生成器产生K个不同的初始查询;其次,每个查询扩展为一个完整的搜索与推理线程。该仓库报告称,在相同计算预算下,与标准并行采样相比,证据覆盖率(以检索到的独特事实衡量)提升了34%。

| 策略 | 检索到的独特文档数(平均) | 与前10结果的重复率 | 计算开销 |
|---|---|---|---|
| 标准并行(32线程) | 12.4 | 78% | 1.0x |
| 语义扰动 | 28.7 | 41% | 1.15x |
| 对抗性种子 | 31.2 | 33% | 1.05x |
| 策略性变异 | 26.1 | 48% | 1.10x |
| 多样化束搜索 | 33.8 | 29% | 1.25x |

数据要点: 表格显示,所有多样性感知策略都显著增加了检索到的独特文档数量,同时减少了与前10结果的重复率。多样化束搜索实现了最高的覆盖率,但计算开销增加了25%,而对抗性种子提供了最佳的性价比,仅增加5%的开销便接近最大覆盖率。

关键参与者与案例研究

首轮查询同质化问题已被多个领先研究团队独立观察到。在Google DeepMind,负责“搜索增强推理”(SAR)框架的团队在一份技术报告中指出,在HotpotQA基准测试上,将并行线程增加到8个以上对事实召回率的提升微乎其微。他们的内部分析将原因追溯到查询坍塌,并因此实现了一个“查询多样化”模块,该模块在主搜索之前使用一个小型语言模型来提出替代措辞。

Anthropic则采取了不同的方法,用于其Claude驱动的研究代理。他们不是在生成阶段多样化查询,而是使用一个事后“证据去重”步骤,对检索到的文档进行聚类,并迫使代理主动寻找代表性不足的聚类。这

更多来自 arXiv cs.AI

无标题A groundbreaking methodology known as curriculum anchoring is redefining how large language models (LLMs) evaluate studeAI CEO能坐稳董事会吗?新基准测试暴露致命缺陷由多家机构研究人员共同开发的全新评估框架,已超越MMLU或法律考试等传统基准,转而测试AI在模拟多智能体环境中担任CEO的能力。该基准创建了一家虚拟公司,AI CEO需接收来自CFO、CTO和HR智能体的战略提案,每个智能体都掌握不完整信息AI代理性能危机:意图与执行之间的鸿沟,如何让智能模型沉默多年来,AI社区一直痴迷于模型规模的扩展——更大的参数量、更多的训练数据、更高的基准测试分数。但由顶尖大学和AI实验室团队引领的新一波研究,揭示了一个令人震惊的事实:AI代理的性能天花板并非由模型的推理能力决定,而是由模型与其执行环境之间粗查看来源专题页arXiv cs.AI 已收录 483 篇文章

时间归档

June 20261654 篇已发布文章

延伸阅读

Curriculum Anchoring: The End of Guesswork in AI Grading SystemsA novel technique called curriculum anchoring is transforming AI grading from a probabilistic guessing game into a verifAI CEO能坐稳董事会吗?新基准测试暴露致命缺陷一项开创性的基准测试将大语言模型置于CEO席位,迫使它们在资源约束下处理各部门相互冲突的建议。早期结果显示,即便是最前沿的模型也倾向于简单妥协或忽视异见,暴露出组织智慧的关键缺失。AI代理性能危机:意图与执行之间的鸿沟,如何让智能模型沉默一项开创性研究揭示了AI代理中隐藏的瓶颈——「意图-执行鸿沟」。即便是最强大的语言模型,当其意图被有缺陷的执行框架拙劣地转化为行动时,也会损失超过40%的能力。这一发现将行业焦点从模型规模转向系统设计。MapSatisfyBench:终于有一项基准测试,真正衡量用户想要什么由多家AI研究机构联合推出的MapSatisfyBench,将地图AI的评估目标从“任务完成度”转向“真实用户满意度”。它要求智能体从“找家咖啡店”这类模糊查询中推断出未言明的偏好,考验的是对语境与行为的深层理解,而非简单的指令执行。

常见问题

这次模型发布“Parallel Sampling Hits a Wall: Why First-Query Homogeneity Kills Agent Search Diversity”的核心内容是什么?

For years, the dominant paradigm for scaling agent search at test time has been straightforward: increase depth (more reasoning tokens and turns) or increase breadth (more parallel…

从“What is the first-query homogeneity trap in agent search?”看,这个模型发布为什么重要?

The core mechanism behind the first-query homogeneity trap lies in the autoregressive nature of large language models when generating search queries. Given a fixed user prompt or task description, the model's output dist…

围绕“How does parallel sampling fail to improve agent search diversity?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。