Dendrite 的 O(1) KV 缓存分叉技术,或将彻底改变大模型推理经济学

Hacker News March 2026
来源:Hacker News归档:March 2026
开源项目 Dendrite 近日公布了一项可能从根本上改变大语言模型推理经济学的技术突破。通过引入 O(1) 复杂度的键值缓存分叉机制,该系统能够高效并行探索多条推理路径,而无需承担传统的计算开销。这有望让基于树的解码策略变得真正实用,为 AI 推理的成本与效率带来革命性变化。

Dendrite 项目在优化基于 Transformer 的大语言模型推理方面实现了重大飞跃,其核心目标是解决长期存在的高效并行推理难题。该项目的核心在于实现了一种新颖的键值缓存管理系统,允许单个推理状态以常数时间复杂度瞬间分叉成多个独立分支。这与传统方法形成鲜明对比:传统方法中,维护多个对话状态或探索替代推理路径需要复制整个计算图或管理日益复杂的缓存层次结构,导致内存和计算开销呈二次方甚至更糟的增长。

Dendrite 的技术创新在于它不再将 KV 缓存视为一个不可分割的整体,而是将其重构为一种支持版本控制和写时复制的树形结构。所有分支共享的前缀部分仅存储一次。当在某个位置进行分叉时,系统无需复制历史缓存,仅为每个新分支创建用于存储未来生成内容的新节点。这种设计使得创建分支的内存开销仅与各分支即将生成的新内容成正比,而与整个生成长度无关。

这一突破意味着,在需要同时考虑多种可能性或进行多路径规划的应用场景中——例如 AI 智能体决策、代码补全候选生成或复杂对话推理——模型可以极低的额外成本并行探索所有路径,从而大幅提升吞吐量并降低延迟。Dendrite 为解锁大模型推理中长期以来被忽视的“请求内并行”维度提供了关键基础设施,其开源实现(`dendrite-ai/dendrite-core`)已展示出对 Llama 等模型的显著加速效果,预示着大模型服务经济模型可能迎来重塑。

技术深度解析

Dendrite 的突破性进展核心在于重新构想了 Transformer 的键值缓存机制。KV 缓存用于存储注意力计算的中间结果,以避免在自回归生成过程中重复计算。在标准解码过程中,KV 缓存随序列长度线性增长,而探索替代路径通常只有两种选择:
1. 完全复制:为每个分支复制整个缓存,导致 O(n * b) 的内存复杂度(n 为序列长度,b 为分支数)。
2. 重新计算:从分支点重新运行前向传播,以计算资源换取内存。

Dendrite 引入了一种支持版本控制的写时复制 KV 缓存。缓存被组织成树形结构,节点代表令牌位置。所有分支共享的前缀仅存储一次。在令牌位置 *t* 进行分叉时,系统不会复制 0 到 *t-1 位置的缓存,而是为每个分支创建新的、空的叶节点,用于存储未来(位置 >= *t*)的 KV 对。同时维护从这些叶节点指回共享前缀的指针。注意力机制经过修改,以遍历此缓存树,从共享的祖先路径和分支特定的叶路径收集键和值。

其结果是,就共享前缀而言,实现了O(1) 的分叉复杂度。创建 *b* 个分支的内存开销仅与每个分支将要生成的新颖、分化的令牌数量成正比,而与整个历史长度无关。核心创新在于注意力内核的修改和缓存分配器,它们必须以最小的延迟代价来处理这种异构的、树状结构的数据。

该项目的 GitHub 仓库(`dendrite-ai/dendrite-core`)展示了一个 PyTorch 实现,并为修改后的注意力操作配备了自定义 CUDA 内核。在 Llama 3 8B 模型上的早期基准测试展示了其扩展优势。

| 解码策略 | 分支数 | 内存开销 vs. 顺序解码 | 吞吐量 (令牌/秒) |
|---|---|---|---|
| 顺序贪婪解码 | 1 | 1.0x (基线) | 145 |
| 朴素波束搜索 (宽度=4) | 4 | ~3.8x | 42 |
| Dendrite 分叉搜索 (宽度=4) | 4 | ~1.3x | 118 |
| 推测解码 (小草稿模型) | 不适用 | 1.5x | 210 |
| Dendrite + 推测解码 (多草稿) | 3 条草稿路径 | ~1.8x | 315 |

数据要点:Dendrite 的分叉搜索在保持单路径解码 81% 吞吐量的同时,实现了接近顺序解码的内存效率,这相比朴素波束搜索(吞吐量下降 71%)是巨大的改进。与推测解码结合则显示出倍增的收益,暗示了其真正的潜力。

关键参与者与案例研究

这项创新处于多个活跃的研究和工程前沿的交叉点。Meta 的 FAIR 团队Google 的 DeepMind 在推测解码(如 Medusa, EAGLE)和无损加速技术方面发表了大量论文,这些技术与 Dendrite 天然互补。Dendrite 有效地提供了并行运行多个草稿模型或多个验证步骤的基础设施。

在产品领域,Perplexity AI 的对话式搜索本质上需要考虑多种查询解释和检索策略,可以利用这种分叉技术来并行化其推理层。GitHub Copilot 及类似受益于生成多个补全候选的代码生成工具,将直接获得延迟和成本的改善。

最引人注目的案例研究在于AI 智能体框架。像 Cognition Labs 的 DevinOpenAI 基于 GPT 的智能体 这样的平台执行多步骤规划和工具调用。目前,由于成本限制,这些操作通常是顺序执行或仅有有限的分支。Dendrite 的架构将允许智能体在决策点(例如,“我应该搜索网络还是分析这个本地文件?”)分叉其状态,并在单个 GPU 上下文中并行执行两条路径。胜出的路径稍后被选中,从而极大提高规划效率。

考虑推理优化解决方案的竞争格局:

| 解决方案 | 主要方法 | 优势 | 劣势 | 商业支持者/示例 |
|---|---|---|---|---|
| vLLM | PagedAttention,高效 KV 缓存管理 | 擅长处理*独立*请求,高吞吐量 | 未针对请求内*相互依赖*的分支进行优化 | 被 Anyscale, Together AI 使用 |
| TensorRT-LLM | 内核融合,模型特定优化 | 针对固定、已知模型的峰值性能 | 僵化,对动态计算图/分支灵活性较差 | NVIDIA |
| SGLang | RadixAttention 用于提示词缓存 | 对重复的提示结构高效 | 专注于解码前阶段,而非动态运行时分支 | LMSYS Org |
| Dendrite | O(1) KV 缓存分叉 | 解锁高效的*请求内*并行推理 | 新出现,未经历大规模验证,需要内核集成 | 开源项目 |

数据要点:Dendrite 开辟了一个专注于请求内并行化的独特利基市场,这是一个在很大程度上未被现有主流解决方案充分解决的维度。

更多来自 Hacker News

Transfa:重塑AI智能体工作流的临时文件传输协议在AI智能体编排与持续部署快速演进的当下,一个长期被忽视的痛点浮出水面:如何在异构系统间高效、安全地传输临时文件?传统文件共享协议从未为瞬态机器间交互而设计。Transfa以激进的方式填补了这一空白——文件仅在需要时存在,自动过期,不留任何Cchost 引爆并行AI编程:一台机器,多个Claude智能体协同作战AINews发现了一个名为Cchost的开源项目,它从根本上重新定义了开发者与Claude Code等AI编程智能体的交互方式。其核心创新简单而强大:为每个Claude Code会话创建独立的沙盒环境,使单台机器能够同时托管多个完全隔离的AAnthropic 警告美国:若不紧急行动,中国 AI 将在 2028 年前超越美国由前 OpenAI 员工创立的 AI 安全与研究实验室 Anthropic,通过提出一份具体且数据驱动的时间线,将中美 AI 竞争的辩论推向了新高度。根据与政策制定者分享的内部评估,中国最早可能在 2028 年实现与美国的对等甚至超越,尤其查看来源专题页Hacker News 已收录 3452 篇文章

时间归档

March 20262347 篇已发布文章

延伸阅读

隐秘战场:LLM推理效率如何重塑AI格局当大语言模型训练竞赛触及天花板,推理效率正成为AI商业化的决胜关键。AINews深度解析KV缓存、投机解码与硬件创新如何将成本降低数个数量级,解锁从语音助手到自主编程代理的实时应用。本地AI性能每年翻倍,消费级笔记本电脑超越摩尔定律AINews最新分析显示,在消费级笔记本电脑上运行的开源AI模型,两年内性能提升超过10倍,增速超越摩尔定律。这场由量化、推测解码和混合专家架构驱动的算法革命,正将每一台笔记本电脑变为强大的推理引擎,挑战以云为中心的AI范式。并行验证突破LLM速度瓶颈:4.5倍吞吐量提升重塑AI推理格局一种全新的并行验证方法打破了自回归解码长期存在的速度瓶颈,将大语言模型推理吞吐量提升4.5倍。该技术通过同时验证多个候选令牌,大幅降低延迟的同时保持输出质量,有望推动高并发AI服务的普及,并加速实时应用落地。隐形战场:推理效率如何定义AI的商业未来构建更大规模语言模型的竞赛长期占据头条,但一场关于推理效率的静默革命,正成为决定商业成败的关键。AINews深入探究量化、推测解码与KV缓存管理等创新技术,如何将延迟从秒级压缩至毫秒级,解锁实时应用并重塑商业模式。

常见问题

GitHub 热点“Dendrite's O(1) KV Cache Forking Could Revolutionize LLM Inference Economics”主要讲了什么?

The Dendrite project represents a significant leap forward in optimizing transformer-based large language model inference, specifically targeting the long-standing challenge of eff…

这个 GitHub 项目在“How to implement Dendrite KV cache forking with Llama 3”上为什么会引发关注?

Dendrite's breakthrough centers on reimagining the transformer's key-value (KV) cache—the mechanism that stores intermediate attention computations to avoid recomputation during autoregressive generation. In standard dec…

从“Dendrite vs vLLM performance benchmark for beam search”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 0,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。