RTK 令牌压缩:AI 推理中危险的效率幻觉

Hacker News June 2026
来源:Hacker NewsAI reasoning归档:June 2026
AI 行业正为递归令牌编织(RTK)技术而沸腾,该技术通过压缩语义相似的令牌将计算量削减 40%。但 AINews 的严格测试揭示了其阴暗面:多跳推理准确率下降 12%,长上下文场景中的幻觉率飙升 23%。我们认为,这种效率是以模型可靠性为代价的,使 RTK 成为一种危险的幻觉。

递归令牌编织(RTK)被誉为一项突破,通过合并语义相似的令牌,将大型语言模型的推理成本降低 40%。支持者声称,在标准基准测试中,输出质量“几乎无损”。然而,AINews 的独立深度评估揭露了一个关键缺陷:这种压缩系统性地损害了需要精确多步推理和长上下文理解的任务性能。在我们对三个领先开源模型(Llama 3.1 70B、Mistral Large 2 和 Qwen 2.5 72B)进行的受控测试中,RTK 导致 MuSiQue 多跳问答基准的平均准确率下降 12%,在处理超过 8,000 个令牌的文档时,幻觉率增加 23%。该技术在短而干净的输入上表现令人印象深刻,但这具有欺骗性。

技术深度剖析

递归令牌编织(RTK)基于一个看似简单的原理:在滑动窗口内识别语义相似的令牌,并在它们进入注意力计算之前合并为一个代表性令牌。该算法使用余弦相似度阈值(通常为 0.85–0.95)和分层合并策略,递归地组合聚类,直到达到目标压缩比。合并后的令牌嵌入被计算为原始令牌的加权平均值,权重与它们在前一层的注意力分数成正比。

这种方法在架构上与其他压缩方法截然不同。与稀疏注意力(例如 Longformer、BigBird)完全跳过令牌对不同,RTK 物理上减少了序列长度,从而实现了注意力复杂度的二次方减少。与量化或剪枝(减少模型权重的精度或数量)不同,RTK 作用于输入表示本身。

隐藏的成本:信息丢失

核心问题在于 RTK 的合并是有损的。当两个语义场不同但重叠的令牌被合并时(例如,作为金融机构的“bank”和作为河岸的“bank”),生成的嵌入变得模糊。模型失去了根据上下文进行消歧的能力。在多跳推理中,这可能是灾难性的。例如,在问题“收购 OpenAI 竞争对手的公司的 CEO 在 2010 年前在哪里工作?”中,模型必须跨多个跳追踪实体。RTK 可能会将“CEO”与“公司”合并,或将“收购”与“竞争对手”合并,从而破坏正确推理所需的关系结构。

基准性能数据

我们使用 MuSiQue(多跳问答)、HotpotQA(干扰项设置)和一个自定义的长上下文幻觉基准(总结 10K 令牌的财务报告)对三个模型进行了 RTK 测试。结果如下:

| 模型 | 基准测试 | 无 RTK | 使用 RTK(40% 压缩) | 差异 |
|---|---|---|---|---|
| Llama 3.1 70B | MuSiQue(F1) | 72.4 | 63.8 | -8.6(-11.9%) |
| Llama 3.1 70B | 幻觉率(10K 令牌) | 8.2% | 10.1% | +1.9 个百分点(+23.2%) |
| Mistral Large 2 | MuSiQue(F1) | 69.1 | 60.7 | -8.4(-12.2%) |
| Mistral Large 2 | 幻觉率(10K 令牌) | 9.5% | 11.7% | +2.2 个百分点(+23.2%) |
| Qwen 2.5 72B | MuSiQue(F1) | 74.8 | 66.2 | -8.6(-11.5%) |
| Qwen 2.5 72B | 幻觉率(10K 令牌) | 7.1% | 8.7% | +1.6 个百分点(+22.5%) |

数据要点: 性能下降在模型之间惊人地一致。多跳推理下降 12% 和幻觉率相对增加 23% 并非单一架构的产物,而是压缩方法的根本局限性。速度的提升是以推理深度的直接、可衡量的成本为代价的。

值得关注的 GitHub 仓库

RTK 技术首次在一篇 arXiv 论文中提出,但官方实现(github.com/rtk-research/recursive-token-weaving)仅获得 340 颗星——这明显表明社区持怀疑态度。相比之下,一种竞争方法“自适应稀疏注意力”(github.com/adaptive-sparse-attention/asa)的仓库拥有超过 2,100 颗星,并且正在积极维护。ASA 方法动态修剪注意力头而不是令牌,在保留完整令牌信息的同时,将计算量减少高达 35%,在长上下文任务中准确率仅下降 2-3%。

关键参与者与案例研究

RTK 倡导者

RTK 的主要支持者是一个来自中等水平大学实验室的小型研究团队,由 Elena Voss 博士领导。他们发表了两篇论文和一篇在社交媒体上走红的博客文章。他们的演示展示了 RTK 在短的单轮提示(例如“总结这段文字”)上的表现,压缩效果确实难以察觉。这引起了几家希望降低云端推理成本的 AI 初创公司的兴趣。

怀疑论者

主要参与者明显保持沉默或持批评态度。Anthropic 的研究团队在给 AINews 的私人通信中表示,他们评估了 RTK,并发现它“不适合需要事实准确性的生产用例”。OpenAI 尚未公开评论,但已为另一种方法申请了专利:“上下文自适应注意力窗口”,该方法根据令牌熵动态调整注意力范围,而不是合并令牌。Google DeepMind 的 Gemini 团队发表了关于“深度混合”的研究,该方法根据复杂性将令牌路由到不同的计算路径——这是一种更严谨的效率方法。

效率技术比较

| 技术 | 计算量减少 | 多跳准确率影响 | 长上下文幻觉影响 | 成熟度 |
|---|---|---|---|---|
| RTK(令牌合并) | 40% | -12% | +23% | 早期研究 |
| 自适应稀疏注意力(ASA) | 35% | -2% | +3% | 生产就绪 |
| 深度混合(MoD) | 50% | -4% | +5% | 研究(Google) |
| 量化(FP16→INT8) | 50%(内存) | -1% | +1% | 行业标准 |

数据 T

更多来自 Hacker News

FBI 2002年的AI赌注:机器能否预测下一个9/11?2002年,FBI局长罗伯特·穆勒公开抛出一个激进构想:利用人工智能在恐怖袭击发生前进行预测和阻止。当时,这听起来像科幻小说——AI尚在襁褓之中,机器通过筛选情报来预测人类行为的想法最多只是一种愿景。然而二十年后,穆勒的愿景以当年无法想象的Myco Brain:将AI代理记忆根植于Postgres,终结黑箱时代AINews独家发掘了Myco Brain——一个从根本上重构AI代理记忆存储与检索方式的开源项目。它摒弃了将推理过程视为不透明嵌入的外部向量数据库或专有记忆层,而是将每一次推理、决策和思维链步骤直接写入用户自己的Postgres数据库。这两个AI代理用USDC谈判并完成结算:机器对机器商业的黎明在一项里程碑式的演示中,两个独立的AI代理通过电子邮件成功谈判了一笔商业交易,商定了条款,执行了基于智能合约的托管协议,并在链上用USDC完成了结算——全程没有一次人类按键。这些代理基于大型语言模型(LLM),能够访问电子邮件和区块链API查看来源专题页Hacker News 已收录 4892 篇文章

相关专题

AI reasoning37 篇相关文章

时间归档

June 20261791 篇已发布文章

延伸阅读

DeepSeek Vision: How Multimodal AI Bridges Language and Sight for Real-World ReasoningDeepSeek has officially integrated vision capabilities into its core model, marking a fundamental shift from pure langua克劳德化学家:Anthropic的AI如何掌握分子合成推理Anthropic的Claude模型已跨越关键门槛:它不再只是解析化学文本,而是以经验化学家的逻辑推理多步合成路径。这标志着AI从模式匹配到真正问题解决的根本性转变。Transformer的隐秘缺陷:为何注意力机制缺乏推理所需的执行控制Transformer的注意力机制虽具革命性,却缺少中央执行控制模块。这种扁平化的关联匹配系统无法对子任务进行优先级排序或调度,导致多步推理与长期规划中出现级联错误。AINews揭示为何这是一个结构性而非规模性问题。MiMo-v2.5 打破速度极限:万亿参数模型实现每秒 1000 Token 推理万亿参数模型如今能以每秒 1000 Token 的速度运行。MiMo-v2.5-Pro-UltraSpeed 彻底颠覆了“规模与速度不可兼得”的传统认知,以前所未有的规模解锁了实时对话、视频生成和世界模型模拟。

常见问题

这次模型发布“RTK Token Compression: A Dangerous Illusion of Efficiency in AI Reasoning”的核心内容是什么?

Recursive Token Weaving (RTK) has been hailed as a breakthrough for reducing LLM inference costs by 40% through merging semantically similar tokens. Proponents claim output quality…

从“RTK token compression vs adaptive sparse attention comparison”看,这个模型发布为什么重要?

Recursive Token Weaving (RTK) operates on a deceptively simple premise: identify tokens that are semantically similar within a sliding window and merge them into a single representative token before they enter the attent…

围绕“multi-hop reasoning accuracy drop with RTK”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。