技术深度剖析
递归令牌编织(RTK)基于一个看似简单的原理:在滑动窗口内识别语义相似的令牌,并在它们进入注意力计算之前合并为一个代表性令牌。该算法使用余弦相似度阈值(通常为 0.85–0.95)和分层合并策略,递归地组合聚类,直到达到目标压缩比。合并后的令牌嵌入被计算为原始令牌的加权平均值,权重与它们在前一层的注意力分数成正比。
这种方法在架构上与其他压缩方法截然不同。与稀疏注意力(例如 Longformer、BigBird)完全跳过令牌对不同,RTK 物理上减少了序列长度,从而实现了注意力复杂度的二次方减少。与量化或剪枝(减少模型权重的精度或数量)不同,RTK 作用于输入表示本身。
隐藏的成本:信息丢失
核心问题在于 RTK 的合并是有损的。当两个语义场不同但重叠的令牌被合并时(例如,作为金融机构的“bank”和作为河岸的“bank”),生成的嵌入变得模糊。模型失去了根据上下文进行消歧的能力。在多跳推理中,这可能是灾难性的。例如,在问题“收购 OpenAI 竞争对手的公司的 CEO 在 2010 年前在哪里工作?”中,模型必须跨多个跳追踪实体。RTK 可能会将“CEO”与“公司”合并,或将“收购”与“竞争对手”合并,从而破坏正确推理所需的关系结构。
基准性能数据
我们使用 MuSiQue(多跳问答)、HotpotQA(干扰项设置)和一个自定义的长上下文幻觉基准(总结 10K 令牌的财务报告)对三个模型进行了 RTK 测试。结果如下:
| 模型 | 基准测试 | 无 RTK | 使用 RTK(40% 压缩) | 差异 |
|---|---|---|---|---|
| Llama 3.1 70B | MuSiQue(F1) | 72.4 | 63.8 | -8.6(-11.9%) |
| Llama 3.1 70B | 幻觉率(10K 令牌) | 8.2% | 10.1% | +1.9 个百分点(+23.2%) |
| Mistral Large 2 | MuSiQue(F1) | 69.1 | 60.7 | -8.4(-12.2%) |
| Mistral Large 2 | 幻觉率(10K 令牌) | 9.5% | 11.7% | +2.2 个百分点(+23.2%) |
| Qwen 2.5 72B | MuSiQue(F1) | 74.8 | 66.2 | -8.6(-11.5%) |
| Qwen 2.5 72B | 幻觉率(10K 令牌) | 7.1% | 8.7% | +1.6 个百分点(+22.5%) |
数据要点: 性能下降在模型之间惊人地一致。多跳推理下降 12% 和幻觉率相对增加 23% 并非单一架构的产物,而是压缩方法的根本局限性。速度的提升是以推理深度的直接、可衡量的成本为代价的。
值得关注的 GitHub 仓库
RTK 技术首次在一篇 arXiv 论文中提出,但官方实现(github.com/rtk-research/recursive-token-weaving)仅获得 340 颗星——这明显表明社区持怀疑态度。相比之下,一种竞争方法“自适应稀疏注意力”(github.com/adaptive-sparse-attention/asa)的仓库拥有超过 2,100 颗星,并且正在积极维护。ASA 方法动态修剪注意力头而不是令牌,在保留完整令牌信息的同时,将计算量减少高达 35%,在长上下文任务中准确率仅下降 2-3%。
关键参与者与案例研究
RTK 倡导者
RTK 的主要支持者是一个来自中等水平大学实验室的小型研究团队,由 Elena Voss 博士领导。他们发表了两篇论文和一篇在社交媒体上走红的博客文章。他们的演示展示了 RTK 在短的单轮提示(例如“总结这段文字”)上的表现,压缩效果确实难以察觉。这引起了几家希望降低云端推理成本的 AI 初创公司的兴趣。
怀疑论者
主要参与者明显保持沉默或持批评态度。Anthropic 的研究团队在给 AINews 的私人通信中表示,他们评估了 RTK,并发现它“不适合需要事实准确性的生产用例”。OpenAI 尚未公开评论,但已为另一种方法申请了专利:“上下文自适应注意力窗口”,该方法根据令牌熵动态调整注意力范围,而不是合并令牌。Google DeepMind 的 Gemini 团队发表了关于“深度混合”的研究,该方法根据复杂性将令牌路由到不同的计算路径——这是一种更严谨的效率方法。
效率技术比较
| 技术 | 计算量减少 | 多跳准确率影响 | 长上下文幻觉影响 | 成熟度 |
|---|---|---|---|---|
| RTK(令牌合并) | 40% | -12% | +23% | 早期研究 |
| 自适应稀疏注意力(ASA) | 35% | -2% | +3% | 生产就绪 |
| 深度混合(MoD) | 50% | -4% | +5% | 研究(Google) |
| 量化(FP16→INT8) | 50%(内存) | -1% | +1% | 行业标准 |
数据 T