智能编译技术让AI Agent推理成本骤降90%,大规模部署不再是梦

Hacker News May 2026
来源:Hacker NewsAI agent归档:May 2026
一项突破性研究提出“智能编译”技术,通过缓存和复用AI Agent工作流中的中间推理结果,将计算成本削减5至10倍。这一成果直击AI部署的经济瓶颈,有望让复杂的多步骤Agent任务变得像简单API调用一样廉价。

大型语言模型(LLM)驱动的Agent在经济可行性上长期受困于重复推理的高昂成本。当Agent执行多步骤任务——比如研究主题、起草报告并验证事实——它往往会在每一步重复几乎相同的推理路径。这种“重新发明轮子”的浪费正是智能编译要解决的核心问题。通过将每次推理视为可复用的“推理片段”序列(包括中间隐藏状态和注意力模式),而非孤立事件,该框架能检测新查询是否匹配已缓存的模式,从而跳过完整的前向传播。这可将实际Transformer计算量减少高达90%。其影响深远:过去花费数美元的任务现在仅需几分钱。智能编译并非新的模型架构,而是基于现有Transformer Agent的系统级优化。核心思想借鉴传统编译器理论:识别频繁执行的“代码路径”并缓存其输出。在LLM语境下,这些路径是产生中间隐藏状态和注意力映射的Transformer层序列,对应常见子任务。该技术通过追踪、指纹识别、匹配和部分复用四个步骤实现高效缓存。基准测试显示,在GAIA多步骤Agent任务套件上,平均延迟从12.4秒降至2.1秒(提升5.9倍),总计算成本从0.042美元降至0.005美元(降低8.4倍),缓存命中率达82%,而准确率仅下降0.4%(在噪声范围内)。这项由微软研究院领导的研究正在整合进其内部Agent框架AutoGen,为大规模部署铺平道路。

技术深度解析

智能编译并非新的模型架构,而是一种系统级优化,位于现有基于Transformer的Agent之上。其核心思想借鉴了传统编译器理论:识别频繁执行的“代码路径”并缓存其输出。在LLM语境下,这些路径是产生中间隐藏状态和注意力映射的Transformer层序列,对应常见子任务。

工作原理:
1. 追踪: 在首次执行多步骤Agent任务时(例如“总结这封邮件,然后起草回复”),系统记录token级计算的序列,包括每个Transformer块后的隐藏状态以及每个注意力头的注意力模式。
2. 指纹识别: 每个推理片段根据输入查询、当前Agent状态和任务上下文被哈希为唯一签名。该签名存储在键值缓存中。
3. 匹配: 当新任务到达时,系统计算其签名并检查缓存。如果找到匹配(可配置语义相似度容差),则检索缓存的隐藏状态并直接输入下一个Transformer块,跳过匹配层的计算。
4. 部分复用: 该框架还可以仅复用部分计算——例如,复用先前查询的注意力模式,同时为略有不同的上下文重新计算前馈网络输出。这种粒度对于保持准确性至关重要。

技术基础: 该方法利用了这样一个观察:许多Agent任务可分解为一小组基本操作:信息检索、文本摘要、代码生成、决策制定等。每个基本操作都有其特征性的“计算足迹”,在不同任务中高度重复。例如,“从这句话中提取主要实体”的注意力模式几乎相同,无论周围文本如何。

相关开源工作: 该研究建立在早期推测解码和前缀缓存的工作之上。最直接相关的GitHub仓库是'vllm'(超过30,000星标),它实现了PagedAttention机制以高效管理键值缓存。智能编译在此基础上扩展,不仅缓存单个提示的键值对,还缓存跨多个Agent步骤的整个中间状态序列。另一个相关仓库是'FlexGen'(超过15,000星标),它探索了LLM推理的卸载和缓存策略。智能编译论文引入了一种新颖的“推理图”抽象,将这些缓存思想推广到任意Agent工作流。

基准性能: 论文报告了在GAIA基准测试上的结果,该基准是一套多步骤Agent任务。下表总结了关键发现:

| 指标 | 无智能编译 | 有智能编译 | 改进幅度 |
|---|---|---|---|
| 每任务平均延迟 | 12.4秒 | 2.1秒 | 快5.9倍 |
| 每任务总计算成本 | $0.042 | $0.005 | 便宜8.4倍 |
| 缓存命中率(所有任务) | — | 82% | — |
| 准确率(GAIA分数) | 68.3% | 67.9% | -0.4%(在噪声范围内) |

数据要点: 该表显示,智能编译在延迟和成本上实现了显著降低,且准确率损失可忽略不计。82%的缓存命中率表明,大多数Agent任务共享大量常见推理模式,验证了核心假设。

关键参与者与案例研究

智能编译研究由微软研究院的一个团队领导(论文可在arXiv上获取,但我们将其视为AINews的原创报道)。团队成员包括曾参与'Retro'架构和'Grounded Agents'项目的知名研究人员。他们的工作已整合进微软内部Agent框架'AutoGen',该框架在GitHub上拥有超过30,000星标,被企业用于自动化复杂工作流。

竞争方法: 其他几家公司和实验室也在追求类似的效率提升,但通过不同机制:

| 公司/项目 | 方法 | 关键指标 | 状态 |
|---|---|---|---|
| 微软(智能编译) | 缓存中间隐藏状态和注意力模式 | 5-10倍成本降低 | 研究原型,整合进AutoGen |
| Anthropic(Constitutional AI + 缓存) | 针对常见安全检查的提示级缓存 | 2-3倍成本降低 | 已在Claude API中生产部署 |
| Google DeepMind(基于JAX的Agent优化) | 将整个Agent循环编译为单一优化图 | 3-5倍成本降低 | 实验性,未公开 |
| OpenAI(面向Agent的推测解码) | 使用较小模型预测Agent动作,由GPT-4验证 | 2-4倍成本降低 | 在API中可用于聊天补全 |

数据要点: 微软的智能编译方法提供了报告的最大成本降低(5-10倍),相比之下,其他方法仅实现2-5倍。这种优势源于其更细粒度的缓存策略——不仅缓存提示级结果,还缓存中间计算状态,从而在保持高准确率的同时最大化复用。

更多来自 Hacker News

反乌托邦文学如何“毒害”AI:Anthropic 揭示训练数据中的对齐危机Anthropic 的最新研究识别出一个此前被忽视的 AI 对齐风险向量:叙事性小说的道德内容。大型语言模型在基于乔治·奥威尔的《1984》、奥尔德斯·赫胥黎的《美丽新世界》以及叶夫根尼·扎米亚京的《我们》等经典反乌托邦作品进行微调后,在受CodeShot为AI代理装上“数字之眼”:网页交互的全新范式CodeShot并非又一款网页抓取工具,而是一个基础设施级产品,系统性地将视觉感知整合到AI代理技术栈中。通过将截图捕获、结构化数据提取和链接预览生成统一为一次API调用,它让代理能够在一项操作中同时理解网页的视觉布局和语义内容。这是一次根Kimi的静默工程革命:为何智能体架构胜过模型规模Kimi在AI智能体竞赛中异军突起,并非依靠追逐更大模型,而是重新思考智能体如何协作。其核心洞见在于:将每个智能体视为一个专业化、可验证、可替换的单元,而非全知全能的预言者。这种模块化架构围绕显式任务分解与容错机制构建,在企业部署中实现了多查看来源专题页Hacker News 已收录 3861 篇文章

相关专题

AI agent145 篇相关文章

时间归档

May 20262578 篇已发布文章

延伸阅读

CodeShot为AI代理装上“数字之眼”:网页交互的全新范式一款名为CodeShot的新工具,通过单一API同时实现截图捕获、结构化数据提取和链接预览生成,赋予AI代理“看见”网页的能力。这标志着从纯文本代理向视觉感知自主系统演进的临界转折点。AI智能体仅花916美元构建操作系统:软件经济学被彻底颠覆谷歌的一个AI智能体,仅花费916美元的计算和API成本,就构建了一个功能完整的操作系统,直接挑战了传统操作系统开发动辄数千万美元、耗时数年的范式。这一实验标志着从AI辅助编程到自主系统级工程的巨大转变。乌克兰Diia应用部署Gemini AI代理,重新定义政府即对话式服务乌克兰在其国家级Diia应用中全面部署了由Google Gemini驱动的AI代理。公民现在只需通过语音对话,即可完成从退税到社会福利申领等复杂官僚流程。这标志着大型语言模型首次深度集成到国家级政府服务平台,堪称全球首创。AI代理的隐藏软肋:为何知识检索失败率高达40%一项对1192个真实AI代理对话的深度剖析揭示了一个惊人瓶颈:超过40%的任务失败并非源于推理错误,而是因为检索到了无关或过时信息。这一发现暴露了AI产品开发中的关键盲区——团队痴迷于模型能力,却忽视了支撑它们的搜索基础设施。

常见问题

这次模型发布“Smart Compilation Slashes AI Agent Inference Costs by 90%, Unlocking Mass Deployment”的核心内容是什么?

The economic viability of large language model (LLM)-powered agents has long been hamstrung by the sheer cost of repeated inference. When an agent performs a multi-step task—say, r…

从“smart compilation vs speculative decoding for AI agents”看,这个模型发布为什么重要?

Smart compilation is not a new model architecture; it is a system-level optimization that sits on top of existing transformer-based agents. The core idea borrows from traditional compiler theory: identify frequently exec…

围绕“how to implement smart compilation in LangChain”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。