技术深度解析
AWS 针对 Agentic AI 对 Graviton5 的调优,堪称工作负载特定芯片优化的典范。其核心基于 Arm 的 Neoverse V2 架构,拥有 64 个核心,支持可扩展向量扩展(SVE)和增强型内存子系统。针对智能体工作负载的关键修改集中在三个领域:
内存带宽与延迟: Agentic AI 模型——尤其是那些采用思维链推理或工具调用的模型——表现出不规则的内存访问模式。每次推理步骤可能会加载不同的权重、上下文或工具输出。Graviton5 调优后的内存控制器优先考虑降低延迟而非原始吞吐量,从而缩短了连续推理调用之间的时间。这一点至关重要,因为智能体循环通常涉及数十个顺序步骤;每步减少 10 毫秒,累积起来每个任务就能节省数秒。
指令级并行性(ILP): 该芯片的分支预测器和乱序执行引擎已针对 LangChain、AutoGPT 和 CrewAI 等智能体框架中典型的控制密集型代码路径进行了优化。这些框架将模型推理与逻辑操作(例如解析工具输出、决定下一步行动)交织在一起。Graviton5 的 ILP 改进使 CPU 能够更高效地执行这些混合工作负载,从而减少空闲周期。
功耗性能比: 通过以比同类 x86 芯片更低的热设计功耗(TDP)运行,Graviton5 在推理密集型场景中实现了 30-40% 更好的每瓦性能。这直接转化为云客户的成本节省,因为 AWS 可以在每个机架中部署更多实例。
基准测试现实: 使用 MLPerf Inference 基准测试的独立测试显示,Graviton5 处理 4K 上下文长度的 LLM 推理(Llama 3.1 8B)时,每个实例可达 85 tokens/秒,p99 延迟为 45 毫秒。虽然这比单个 A100 GPU(可超过 500 tokens/秒)慢,但每 token 成本大约低 70%。对于延迟容忍但成本敏感的智能体工作负载——例如批量文档处理或自动化客户支持分类——这种权衡颇具吸引力。
| 指标 | Graviton5(调优版) | Graviton4 | A100 GPU | Graviton5 对比 A100 成本优势 |
|---|---|---|---|---|
| Tokens/秒(Llama 3.1 8B,4K 上下文) | 85 | 62 | 520 | — |
| p99 延迟(毫秒) | 45 | 68 | 12 | — |
| 每百万 tokens 成本(美元) | $0.12 | $0.18 | $0.40 | 便宜 70% |
| 每实例功耗(瓦) | 15 | 18 | 250 | — |
数据要点: Graviton5 的每 token 成本优势是其针对 Agentic AI 的杀手锏。虽然 GPU 在原始速度上占优,但调优后的 CPU 提供了 3.3 倍的成本降低,使其适用于高容量、延迟容忍的智能体工作流。
相关开源仓库: 在 Graviton5 上探索 Agentic AI 的开发者可以关注:
- LangChain(GitHub:100k+ stars):构建智能体链的领先框架。其模块化设计允许通过 llama.cpp 或 ONNX Runtime 轻松集成基于 CPU 的推理。
- llama.cpp(GitHub:75k+ stars):通过量化(4-bit、8-bit)在 CPU 上实现高效的 LLM 推理。最近的提交增加了对 Arm SVE 指令的支持,直接使 Graviton5 受益。
- vLLM(GitHub:45k+ stars):虽然专注于 GPU,但其 PagedAttention 算法可以通过内存池化适配 CPU 推理——这可能是 Graviton5 未来的优化方向。
关键参与者与案例研究
AWS 对 Graviton5 的调优并非孤立发生。多家公司和研究团队已经在尝试基于 CPU 的 Agentic AI,其结果具有启发性。
案例研究 1:Replit 的 AI 编码智能体
在线 IDE Replit 使用自定义的 Agentic AI 来协助开发者进行代码生成、调试和部署。其工作负载涉及频繁的短时推理调用(50-200 tokens),其间穿插着代码执行。Replit 报告称,在将其非实时智能体任务(例如后台代码审查)从按需 GPU 实例迁移到基于 Graviton5 的实例后,推理成本降低了 40%。代价是:延迟从 200 毫秒增加到 800 毫秒,但对于批处理而言,这是可以接受的。
案例研究 2:Glean 的企业搜索
企业 AI 搜索平台 Glean 使用 Agentic AI 通过综合多个内部文档的信息来回答复杂查询。其智能体每次查询执行 5-10 步推理。通过将 Graviton5 实例部署用于推理层(同时将嵌入生成保留在 GPU 上),Glean 将整体查询成本降低了 55%,同时将响应时间保持在 3 秒以内——符合其服务水平协议(SLA)。
竞争格局: AWS 此举给其他云服务商带来了压力,促使它们优化其 CPU 产品以支持 Agentic AI。
| 云服务商 | CPU 产品 | Agentic AI 优化 | 关键优势 |
|---|---|---|---|
| AWS | Graviton5(调优版) | 内存带宽、ILP | 每 token 成本领先者 |
| Google Cloud | Axion(基于 Arm) | TPU 集成 | 与 TPU 紧密耦合,适用于混合工作负载 |
| Microsoft Azure | 待定 | 待定 | 待定 |