Meta与AWS Graviton合作:GPU独霸AI推理的时代终结

Hacker News April 2026
来源:Hacker NewsAI inference归档:April 2026
Meta与AWS签署多年协议,将Llama模型及未来智能体AI工作负载部署于亚马逊自研Graviton ARM芯片。这是前沿AI实验室首次在ARM架构上大规模运行推理任务,标志着从GPU依赖向专为AI智能体设计的成本高效计算的关键转折。

Meta与AWS签署了一项多年战略协议,将其Llama系列模型及未来的智能体AI工作负载部署于亚马逊自研的Graviton处理器上。这是领先AI研究机构首次大规模采用基于ARM的云芯片进行推理,直接挑战了“先进AI工作负载必须依赖Nvidia GPU”的主流假设。这一合作远非简单的云服务合同,而是AI硬件供应链的结构性调整。智能体AI——其特点是连续、低延迟的序列推理,而非大规模并行矩阵运算——天然契合Graviton的高核心密度与卓越性价比。通过利用AWS Nitro加速和PyTorch框架,Meta对Llama进行了深度优化,使其在Graviton上高效运行。此举不仅为Meta提供了对抗Nvidia定价权的谈判筹码,也为AWS的定制芯片战略赢得了旗舰级参考客户,预示着AI推理硬件市场正从GPU单一主导走向多元化格局。

技术深度解析

这一合作的技术基础在于Graviton芯片与智能体AI推理需求之间的架构契合。与训练不同——训练需要GPU张量核心擅长的海量并行浮点运算——智能体AI推理涉及顺序、有状态的推理过程:处理思维链、在多轮对话中维持上下文、执行工具调用。这类工作负载受内存带宽限制且对延迟敏感,更看重高核心数量与高效的单核性能,而非原始浮点运算能力。

Graviton处理器基于ARM的Neoverse架构,具体包括Graviton3及即将推出的Graviton4变体。这些芯片每个插槽最多可配备64个核心(Graviton3)和96个核心(Graviton4),并集成专用浮点与加密加速单元。对于推理而言,关键指标并非峰值吞吐量,而是每美元每秒生成的令牌数。ARM类似big.LITTLE的异构设计使其能够高效扩展,以适应智能体循环中典型的变长序列。

Meta的优化工作涉及多个层面:
- PyTorch 2.0与torch.compile:实现针对ARM指令集的图级优化,包括用于高效矩阵-向量乘法的SVE(可扩展向量扩展)。
- AWS Nitro系统:卸载虚拟化与网络开销,释放CPU周期用于推理。Nitro的专用加密与存储I/O硬件可将生产工作负载的尾延迟降低高达40%。
- LLM专用量化:Meta开发了4位和8位量化方案(GPTQ、AWQ),这些方案能在ARM的整数流水线上高效运行,在无明显精度损失的前提下减少内存占用。

一个关键的开源参考点是`llama.cpp`仓库(GitHub上超过70,000颗星),它率先使用ARM NEON内建函数实现了基于CPU的Llama模型高效推理。Meta的内部优化很可能在此基础上,通过专有的内核融合与内存管理技术进行了扩展。

基准数据:Graviton与GPU推理性能对比

| 指标 | Graviton3 (64核) | NVIDIA A10G (24GB) | NVIDIA L4 (24GB) |
|---|---|---|---|
| Llama-3-8B 令牌数/秒 | 45 | 120 | 180 |
| 每百万令牌成本 | $0.08 | $0.25 | $0.18 |
| 功耗(峰值) | 150W | 300W | 200W |
| 延迟p99(智能体单轮) | 85ms | 120ms | 95ms |
| 可用性(竞价实例) | 99.5% | 85% | 90% |

数据解读: 虽然GPU能提供更高的原始吞吐量,但Graviton在每令牌成本上低3倍,且在顺序智能体任务中尾延迟更低,使其成为生产级智能体AI系统更经济的选择——当成本与一致性比峰值速度更重要时。

关键参与者与案例研究

Meta 一直在系统性地减少对外部GPU供应的依赖。该公司运营着全球最大的GPU集群之一(预计到2025年底拥有相当于60万块H100的算力),但面临Nvidia分配系统与定价权的制约。通过将Llama推理迁移至Graviton,Meta获得了谈判筹码与运营冗余。此举紧随Meta此前设计自有AI训练芯片(MTIA)以及投资RISC-V替代方案的决定。

AWS 自2018年以来已在定制芯片上投入超过100亿美元,包括Graviton、Trainium(用于训练)和Inferentia(用于推理)。Graviton此前主要用于传统云工作负载(Web服务器、数据库、微服务)。这笔交易标志着其首次在前沿AI推理领域获得验证。AWS的战略是提供完整、垂直整合的堆栈:定制芯片 + Nitro虚拟化 + SageMaker编排 + Bedrock模型托管。与Meta的合作提供了一个旗舰级参考客户,能够吸引其他企业跟进。

对比:定制AI芯片格局

| 公司 | 芯片 | 重点 | 关键客户 | 状态 |
|---|---|---|---|---|
| AWS | Graviton | ARM CPU推理 | Meta (Llama) | 生产阶段 |
| AWS | Trainium | AI训练 | Amazon内部 | 生产阶段 |
| AWS | Inferentia | 机器学习推理 | Amazon Rekognition | 生产阶段 |
| Google | TPU v5p | 训练/推理 | Google内部, DeepMind | 生产阶段 |
| Microsoft | Maia 100 | 训练/推理 | Microsoft内部 | 有限部署 |
| Meta | MTIA | 训练 | Meta内部 | 开发阶段 |
| Nvidia | H100/B200 | 通用GPU | 所有主要实验室 | 主导地位 |

数据解读: AWS的Graviton在定制芯片中独树一帜,专注于大型语言模型的CPU推理——这是Nvidia以GPU为中心的生态系统基本忽视的细分市场。这种差异化使AWS在新兴的智能体AI推理市场中获得了先发优势。

行业影响与市场动态

这一合作加速了自2023年以来逐渐形成的趋势:AI硬件的碎片化。AI推理芯片市场预计将从2024年的180亿美元增长至2028年的850亿美元(年复合增长率36%),其中基于CPU的推理将占据重要份额。

更多来自 Hacker News

无标题AINews has uncovered CrankGPT, a portable AI device that eschews all external infrastructure. It is powered solely by a 长寿遇见智能:抗衰老药物与AI五大核心问题的交汇延长人类寿命的竞赛与追求通用人工智能的探索并非两条平行叙事。它们正汇聚于一个深刻的核心原则:主动干预和重构复杂系统的能力。在抗衰老领域,表观遗传重编程和衰老细胞清除等疗法已超越延缓衰退,进入分子层面逆转生物钟的阶段——这相当于重新编译生命的Transload:用安防摄像头把仓库变成AI称重站几十年来,零担货运(LTL)行业一直受困于一个根本性问题:货物测量不准确。托运人为节省成本而低报货物尺寸,承运商因空间利用率低而损失收入,围绕提单的纠纷更是屡见不鲜。传统解决方案依赖昂贵且专用的尺寸测量设备——激光扫描仪、传送带传感器或人工查看来源专题页Hacker News 已收录 4415 篇文章

相关专题

AI inference28 篇相关文章

时间归档

April 20263042 篇已发布文章

延伸阅读

从零到自主:长程规划如何解锁AI智能体的下一个时代一份关于从零构建具备长程规划能力AI智能体的新教程,揭示了一个关键转折:智能体能够自主分解复杂目标、监控进度并动态调整策略。这标志着从被动指令执行者到主动目标管理者的转变,对个人生产力与企业自动化具有深远影响。模型路由正在悄然瓦解OpenAI与Anthropic的定价权一种名为“智能模型路由”的新型中间件正在悄然改变企业部署AI的方式:它将简单查询自动导向廉价的开源模型,仅将真正复杂的任务留给昂贵的尖端模型。这种优化可将API成本削减60%至80%,从根本上挑战了OpenAI和Anthropic的高价策略社区硬件参考打破AI推理瓶颈:VRAM表与GPU筛选器让模型部署透明化一款由社区维护的LLM硬件参考工具正悄然革新AI推理。通过提供VRAM内存表、GPU等级筛选器以及工具调用评分,它为开发者绘制了一张透明的模型与GPU匹配地图,绕开厂商数据,加速部署进程。AI路由器的崛起:智能流量控制如何将推理成本降低60%新一代智能路由器正在重塑大语言模型推理格局:它能实时评估每个查询的复杂度、延迟容忍度和精度需求,动态将其路由至最具性价比的模型与硬件组合。这一架构变革有望将推理成本削减40-60%,同时解锁兼顾延迟、准确性与开支的混合部署模式。

常见问题

这次公司发布“Meta and AWS Graviton Deal Signals the End of GPU-Only AI Inference”主要讲了什么?

Meta has signed a multi-year strategic agreement with AWS to deploy its Llama family of models and future agentic AI workloads on Amazon's custom Graviton processors. This is the f…

从“Meta AWS Graviton deal details”看,这家公司的这次发布为什么值得关注?

The technical foundation of this partnership rests on the architectural alignment between Graviton chips and the inference demands of agentic AI. Unlike training, which requires massive parallel floating-point operations…

围绕“ARM vs GPU for AI inference 2025”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。