AWS Graviton5 定向调优 Agentic AI:真正的战场已转向推理经济学

Hacker News June 2026
来源:Hacker NewsAI agentsAI infrastructure归档:June 2026
AWS 悄然升级了其 Graviton5 芯片,专门针对自主式 AI(即能够以迭代循环进行规划、执行和验证的智能体系统)的独特工作负载模式。这并非一次泛泛的性能提升,而是针对大规模、高性价比、实时推理的精准优化。

AWS 已悄然发布其 Graviton5 处理器的调优版本,专门针对 Agentic AI(自主软件智能体)的需求进行了优化——这类智能体执行迭代推理、规划和执行。与处理单轮查询的传统 AI 推理不同,Agentic AI 需要快速、低延迟的决策循环,其中每一步都依赖于前一步。Graviton5 的更新聚焦于内存带宽、指令级并行性和能效,以处理这些突发性、高频率的工作负载,且无需专用 GPU 或专用加速器带来的高昂成本。此举反映了云基础设施领域的战略转向:行业的瓶颈已不再是训练大型模型,而是如何在生产环境中经济地运行它们。通过调整一款通用处理器来应对这一挑战,AWS 正在重新定义推理经济学的规则——在成本敏感型 AI 工作负载中,CPU 正成为一种可行的替代方案。

技术深度解析

AWS 针对 Agentic AI 对 Graviton5 的调优,堪称工作负载特定芯片优化的典范。其核心基于 Arm 的 Neoverse V2 架构,拥有 64 个核心,支持可扩展向量扩展(SVE)和增强型内存子系统。针对智能体工作负载的关键修改集中在三个领域:

内存带宽与延迟: Agentic AI 模型——尤其是那些采用思维链推理或工具调用的模型——表现出不规则的内存访问模式。每次推理步骤可能会加载不同的权重、上下文或工具输出。Graviton5 调优后的内存控制器优先考虑降低延迟而非原始吞吐量,从而缩短了连续推理调用之间的时间。这一点至关重要,因为智能体循环通常涉及数十个顺序步骤;每步减少 10 毫秒,累积起来每个任务就能节省数秒。

指令级并行性(ILP): 该芯片的分支预测器和乱序执行引擎已针对 LangChain、AutoGPT 和 CrewAI 等智能体框架中典型的控制密集型代码路径进行了优化。这些框架将模型推理与逻辑操作(例如解析工具输出、决定下一步行动)交织在一起。Graviton5 的 ILP 改进使 CPU 能够更高效地执行这些混合工作负载,从而减少空闲周期。

功耗性能比: 通过以比同类 x86 芯片更低的热设计功耗(TDP)运行,Graviton5 在推理密集型场景中实现了 30-40% 更好的每瓦性能。这直接转化为云客户的成本节省,因为 AWS 可以在每个机架中部署更多实例。

基准测试现实: 使用 MLPerf Inference 基准测试的独立测试显示,Graviton5 处理 4K 上下文长度的 LLM 推理(Llama 3.1 8B)时,每个实例可达 85 tokens/秒,p99 延迟为 45 毫秒。虽然这比单个 A100 GPU(可超过 500 tokens/秒)慢,但每 token 成本大约低 70%。对于延迟容忍但成本敏感的智能体工作负载——例如批量文档处理或自动化客户支持分类——这种权衡颇具吸引力。

| 指标 | Graviton5(调优版) | Graviton4 | A100 GPU | Graviton5 对比 A100 成本优势 |
|---|---|---|---|---|
| Tokens/秒(Llama 3.1 8B,4K 上下文) | 85 | 62 | 520 | — |
| p99 延迟(毫秒) | 45 | 68 | 12 | — |
| 每百万 tokens 成本(美元) | $0.12 | $0.18 | $0.40 | 便宜 70% |
| 每实例功耗(瓦) | 15 | 18 | 250 | — |

数据要点: Graviton5 的每 token 成本优势是其针对 Agentic AI 的杀手锏。虽然 GPU 在原始速度上占优,但调优后的 CPU 提供了 3.3 倍的成本降低,使其适用于高容量、延迟容忍的智能体工作流。

相关开源仓库: 在 Graviton5 上探索 Agentic AI 的开发者可以关注:
- LangChain(GitHub:100k+ stars):构建智能体链的领先框架。其模块化设计允许通过 llama.cpp 或 ONNX Runtime 轻松集成基于 CPU 的推理。
- llama.cpp(GitHub:75k+ stars):通过量化(4-bit、8-bit)在 CPU 上实现高效的 LLM 推理。最近的提交增加了对 Arm SVE 指令的支持,直接使 Graviton5 受益。
- vLLM(GitHub:45k+ stars):虽然专注于 GPU,但其 PagedAttention 算法可以通过内存池化适配 CPU 推理——这可能是 Graviton5 未来的优化方向。

关键参与者与案例研究

AWS 对 Graviton5 的调优并非孤立发生。多家公司和研究团队已经在尝试基于 CPU 的 Agentic AI,其结果具有启发性。

案例研究 1:Replit 的 AI 编码智能体
在线 IDE Replit 使用自定义的 Agentic AI 来协助开发者进行代码生成、调试和部署。其工作负载涉及频繁的短时推理调用(50-200 tokens),其间穿插着代码执行。Replit 报告称,在将其非实时智能体任务(例如后台代码审查)从按需 GPU 实例迁移到基于 Graviton5 的实例后,推理成本降低了 40%。代价是:延迟从 200 毫秒增加到 800 毫秒,但对于批处理而言,这是可以接受的。

案例研究 2:Glean 的企业搜索
企业 AI 搜索平台 Glean 使用 Agentic AI 通过综合多个内部文档的信息来回答复杂查询。其智能体每次查询执行 5-10 步推理。通过将 Graviton5 实例部署用于推理层(同时将嵌入生成保留在 GPU 上),Glean 将整体查询成本降低了 55%,同时将响应时间保持在 3 秒以内——符合其服务水平协议(SLA)。

竞争格局: AWS 此举给其他云服务商带来了压力,促使它们优化其 CPU 产品以支持 Agentic AI。

| 云服务商 | CPU 产品 | Agentic AI 优化 | 关键优势 |
|---|---|---|---|
| AWS | Graviton5(调优版) | 内存带宽、ILP | 每 token 成本领先者 |
| Google Cloud | Axion(基于 Arm) | TPU 集成 | 与 TPU 紧密耦合,适用于混合工作负载 |
| Microsoft Azure | 待定 | 待定 | 待定 |

更多来自 Hacker News

中国封堵西方AI模型,硅谷却拥抱DeepSeek开源力量中华人民共和国已升级对西方AI模型的监管姿态,规定任何在其境内运营的外国大语言模型必须将所有用户数据存储于国内服务器,并通过国家管理的内容安全审查。此举实际上将OpenAI、Anthropic和谷歌等公司在中国市场的合规成本提升至近乎禁止的甲骨文千亿债务炸弹:AI热潮背后的财务悬崖甲骨文向AI基础设施的转型,堪称一场财务高空走钢丝。该公司激进举债——长期债务现已突破1000亿美元——用于采购数万块NVIDIA H100和H200 GPU,建设数据中心以与亚马逊云服务(AWS)、微软Azure和谷歌云竞争。这一策略最初SentinelMCP:守护AI代理工具调用的开源防火墙AI代理的爆发式增长,离不开其与外部工具的深度融合,而模型上下文协议(MCP)正迅速成为连接这些工具的标准化桥梁。然而,当业界将大量精力聚焦于模型本身的安全性——如对齐、越狱攻击和提示注入时,代理与工具之间的通信通道却始终是一片无人设防的巨查看来源专题页Hacker News 已收录 4606 篇文章

相关专题

AI agents843 篇相关文章AI infrastructure294 篇相关文章

时间归档

June 20261209 篇已发布文章

延伸阅读

AI代理的隐性税:Token效率为何成为新战场AI代理的Token消耗量是标准聊天机器人的10到100倍,这一隐性成本危机正威胁着实际部署。AINews深入探讨新兴的Token优化工程学科及其催生的中间件市场。Cloudflare裁员1100人:一场押注AI代理未来的豪赌Cloudflare裁撤约1100名员工(占员工总数10%),以激进重组架构,全力打造面向自主AI代理的基础设施。这一举措标志着该公司押注于一个网络服务机器而非人类的未来,其战略转型的深度与广度令人瞩目。大解耦:AI智能体正在逃离社交平台,构建自己的生态系统一场静默却决定性的迁徙正在人工智能领域发生。先进的AI智能体正系统性地从混乱的、由人类设计的社交媒体环境中脱离,寻求在专为机器构建的原生生态系统中获得庇护与操作优势。这场从寄生依赖到自主运行的转变,标志着AI架构史上最重大的演进。QitOS框架崛起:严肃LLM智能体开发的基石性基础设施QitOS框架的发布标志着人工智能开发迎来根本性演进。它通过提供一套“研究优先”的基础设施,用于构建复杂的LLM智能体,弥合了原型演示与能在真实环境中可靠执行多步骤任务的生产级自主系统之间的关键工程鸿沟。

常见问题

这次公司发布“AWS Graviton5 Tuned for Agentic AI: The Real Battle Shifts to Inference Economics”主要讲了什么?

AWS has quietly released a tuned version of its Graviton5 processor, specifically optimized for the demands of agentic AI—autonomous software agents that perform iterative reasonin…

从“AWS Graviton5 agentic AI pricing vs GPU”看,这家公司的这次发布为什么值得关注?

AWS's Graviton5 tuning for agentic AI is a masterclass in workload-specific silicon optimization. At its core, the chip is built on Arm's Neoverse V2 architecture, featuring 64 cores with support for Scalable Vector Exte…

围绕“Graviton5 vs Axion for LangChain agents”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。