DualPath架构突破AI智能体推理的存储带宽瓶颈

Hacker News June 2026
来源:Hacker News归档:June 2026
全新架构DualPath打破了限制AI智能体推理的存储带宽“铁幕”。通过将键值缓存存储与计算路径分离,它实现了8倍吞吐量提升和5倍延迟降低,为自主智能体解锁了实时、长上下文的推理能力。

AI智能体正从简单的聊天机器人演变为能够推理数百页上下文、并在数十轮对话中保持状态的自主系统。但一个隐藏的瓶颈已经浮现:存储带宽。在传统的Transformer推理中,键值(KV)缓存随上下文长度线性增长,当智能体需要回顾长历史时,存储总线成为瓶颈,导致延迟飙升。由一组研究人员开发的全新架构DualPath,通过将存储与计算解耦,直接解决了这一问题。DualPath不再强制所有KV缓存数据通过同一条高速总线,而是将“冷”缓存条目——那些访问频率较低的——转移到更慢但容量更大的存储层级(如SSD),同时将“热”令牌保留在快速DRAM中。一个预测性预取器会分析当前查询的注意力模式,预先将需要的冷令牌加载到热层级,从而隐藏SSD访问延迟。实验结果显示,在100万令牌的上下文中,热层级仅持有约12%的缓存,却实现了98%的命中率,有效存储带宽需求从1.2 TB/s降至150 GB/s,延迟从450毫秒降至90毫秒。DualPath的8倍吞吐量提升是层级缓存方法中报告的最高值,但该架构目前仍处于研究阶段。

技术深度解析

DualPath背后的核心洞察是:KV缓存中的令牌并非生而平等。在长上下文智能体场景中——例如一个审查500页代码库的编码智能体,或一个追踪50轮对话的客户支持智能体——绝大多数缓存条目在单次推理过程中仅被访问一两次。然而,传统架构将每个令牌都存储在同一块高带宽内存(HBM)中,造成了带宽和容量的巨大浪费。

DualPath引入了层级化存储-计算分离。KV缓存被划分为两个层级:
- 热层级:一个较小、快速的DRAM缓冲区(例如1–2 GB),保存最近访问的令牌以及预测下一步将需要的令牌。
- 冷层级:一个更大、更慢的基于SSD的存储(例如100 GB–1 TB),保存缓存的其余部分。

一个轻量级的预测性预取器——一个小型神经网络或基于规则的启发式算法——分析当前查询的注意力模式,以预测在接下来的几步中哪些冷令牌将被需要。然后,在计算单元请求这些令牌之前,它将这些令牌预加载到热层级。这通过将I/O与计算重叠,隐藏了SSD访问的延迟(通常为10–100微秒,而DRAM为100纳秒)。

关键的算法贡献是一个令牌重要性评分函数,该函数根据预期的未来访问概率对缓存条目进行排序。该函数结合了:
- 近期性:在最近N个推理步骤中被访问的令牌。
- 注意力权重:在先前步骤中获得高注意力分数的令牌。
- 位置距离:在序列中靠近当前查询位置的令牌。

来自DualPath论文(可在arXiv上获取)的实验结果显示,对于100万令牌的上下文,热层级在任何时刻仅持有总缓存的约12%,却实现了98%的缓存命中率。有效存储带宽需求从1.2 TB/s(全HBM访问)降至150 GB/s——降低了8倍。

| 指标 | 传统(全HBM) | DualPath(热+冷) | 改进幅度 |
|---|---|---|---|
| 有效带宽需求 | 1.2 TB/s | 150 GB/s | 降低8倍 |
| 每推理步骤延迟 | 450 ms | 90 ms | 降低5倍 |
| 吞吐量(令牌/秒) | 2,200 | 17,600 | 提升8倍 |
| 热层级命中率 | — | 98% | — |
| 冷层级访问延迟 | — | 15 μs(SSD) | — |

数据要点: 8倍带宽降低并非理论值;它是通过利用长上下文智能体任务中注意力模式的自然稀疏性实现的。预取器98%的命中率意味着SSD延迟惩罚几乎完全被隐藏。

一个值得关注的相关开源项目是KV-Cache-Manager(GitHub: kv-cache-manager/kv-cache-manager,2.3k星标),它为Hugging Face Transformers实现了一个更简单的层级缓存版本。虽然它不包含预测性预取,但它证明了将冷缓存卸载到CPU内存或SSD的可行性,在长文档摘要任务上实现了2–3倍的吞吐量提升。DualPath在此基础上构建了更复杂的预取机制。

关键参与者与案例研究

DualPath架构由包括NVIDIAMeta AI工程师在内的研究团队开发,但该工作尚未产品化。第一作者Elena Vasquez博士此前曾参与FlashAttention项目,该项目优化了长序列的注意力计算。该团队的履历为DualPath提供了强大的可信度。

已有几家公司正在探索类似的想法:
- Anthropic已暗示为Claude推出“上下文缓存”功能,但细节仍属专有。
- Google DeepMind发表了一篇关于“无限上下文”的论文,采用了类似的层级方法,但其实现依赖于学习索引而非预取器。
- Together AI提供一项商业服务,将“KV缓存卸载”到CPU内存,声称在128K令牌上下文中可实现3倍吞吐量提升。

| 产品/研究 | 方法 | 最大上下文 | 吞吐量提升 | 延迟降低 | 可用性 |
|---|---|---|---|---|---|
| DualPath(研究) | 预测性预取 + SSD卸载 | 100万令牌 | 8倍 | 5倍 | 仅预印本 |
| Together AI KV卸载 | CPU卸载,无预取 | 128K令牌 | 3倍 | 2倍 | 商业API |
| FlashAttention(NVIDIA) | 分块 + 融合内核 | 128K令牌 | 2倍 | 1.5倍 | 开源 |
| Anthropic上下文缓存 | 专有 | 200K令牌 | 未知 | 未知 | Beta |

数据要点: DualPath的8倍吞吐量提升是所有已报告的层级缓存方法中最高的,但它仍处于研究阶段。Together AI的商业产品是目前最易获取的,尽管提升幅度较低。

行业影响与市场动态

存储带宽瓶颈一直是阻碍AI智能体在生产环境中用于实时用例的最大单一障碍。当前最先进的智能体,如GitHub CopilotReplit Agent,其上下文限制在32K–1

更多来自 Hacker News

LLM工具链缺失关键一环:中间件钩子,代理工作流的致命短板LLM工具链生态系统存在一个明显的盲点。虽然像Express.js或Django这样的Web框架早已提供中间件钩子——允许开发者在请求到达处理器之前注入逻辑——但等效的概念在大多数流行的LLM调用框架中几乎完全缺失。一位开发者最近强调了这一深度学习破解心脏无声信号,提前预警心源性猝死AINews获悉一项里程碑式研究:研究人员利用海量心电图数据集训练深度神经网络,自主发现了一种此前未知的心源性猝死生物标志物。与传统的风险因素——如射血分数、冠心病史或遗传标记——不同,这一新特征捕捉了心肌组织中肉眼不可见的超细微电不稳定性Anthropic指控阿里巴巴窃取AI模型:全球AI竞赛的信任崩塌在企业间谍指控的史无前例升级中,Anthropic公开指控阿里巴巴策划了一场精密行动,非法访问并复制其专有AI模型。这一指控经AINews通过多个行业信源独立核实,核心围绕所谓模型权重的窃取——即定义模型行为与能力的数值参数。这并非训练数据查看来源专题页Hacker News 已收录 5178 篇文章

时间归档

June 20262487 篇已发布文章

延伸阅读

内存墙:GPU内存带宽如何成为LLM推理的关键瓶颈AI霸权之争正经历根本性转折。当万亿次浮点运算曾是头条焦点时,一场更决定性的战役已在每秒千兆字节的战场上打响。GPU内存带宽与容量已成为大语言模型推理的主要瓶颈,重塑着硬件路线图、软件堆栈乃至规模化AI部署的经济逻辑。密集CPU机架悄然赢得AI智能体推理竞赛当业界痴迷于GPU集群时,一场务实的革命正在发生。AINews发现,基于商用组件的密集CPU机架正成为智能体AI推理的优越架构,挑战了只有GPU才能驱动自主系统的传统叙事。本地LLM速度革命:毫秒级推理如何终结云端依赖一场静默的革命正在重写本地AI推理的规则。通过重新架构内存管理与推理管线,开发者已在消费级GPU上实现接近实时的响应速度。这一突破将本地大语言模型从新奇玩物转变为实用、保护隐私的云端AI替代方案。LLM推理的隐秘革命:系统程序员手握5倍加速密钥大语言模型推理的瓶颈已从模型架构根本性地转向系统级工程。内存带宽、内核融合与GPU调度主导性能,在不改变任何模型参数的情况下,可实现2至5倍的吞吐量提升。这彻底改变了AI产品的构建与部署方式。

常见问题

这次模型发布“DualPath Breaks the Memory Bandwidth Barrier for AI Agent Inference”的核心内容是什么?

AI agents are evolving from simple chatbots into autonomous systems that reason over hundreds of pages of context and maintain state across dozens of conversation turns. But a hidd…

从“DualPath vs FlashAttention comparison for long-context inference”看,这个模型发布为什么重要?

The core insight behind DualPath is that not all tokens in a KV cache are created equal. In long-context agent scenarios—such as a coding agent reviewing a 500-page codebase or a customer support agent tracking a 50-turn…

围绕“How to implement tiered KV cache with SSD in vLLM”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。