SMG架构解耦CPU与GPU:大模型效率的革命性突破

Hacker News May 2026
来源:Hacker NewsAI infrastructure归档:May 2026
Split Microservice Graph(SMG)架构正从根本上重塑大语言模型的推理服务方式,通过将CPU与GPU资源彻底解耦,消除了传统架构中GPU显存带宽瓶颈与CPU空转的顽疾。这一突破性设计有望带来效率的飞跃式提升,并构建更灵活、更具成本效益的AI基础设施。

传统的大语言模型(LLM)推理服务方式将CPU与GPU资源紧密耦合在同一台服务器内,造成了严重的效率低下问题。GPU受限于其显存带宽,成为性能瓶颈;而负责分词、调度和预处理的CPU,在计算密集的推理过程中却只能空转等待。Split Microservice Graph(SMG)架构通过将这两类资源池彻底解耦,彻底打破了这一范式。CPU集群负责处理高并发、低计算密度的前端任务,GPU集群则专注于计算密集的推理负载,两者通过高速互联网络通信。这种分离实现了独立弹性伸缩:运维人员可以根据实时流量动态分配CPU和GPU资源,从而大幅提升整体效率并降低成本。

技术深度解析

SMG架构的核心洞察在于,它认识到LLM推理管线中CPU和GPU的工作负载具有根本不同的资源需求曲线。一个典型的请求生命周期包括:(1) 分词与输入处理(CPU密集型,高I/O),(2) 调度与批处理(CPU密集型,对延迟敏感),(3) 模型推理(GPU密集型,计算与显存带宽密集),以及 (4) 输出解码与后处理(CPU密集型)。在单体架构中,GPU的显存带宽(例如H100的2 TB/s)是推理吞吐量的限制因素,而CPU虽然拥有大得多的内存容量但带宽较低,往往处于低利用率状态,只能等待GPU的结果。这造成了经典的“木桶效应”——较慢的资源决定了整体性能。

SMG通过将管线拆分为独立的微服务来解决这一问题。CPU微服务集群通常运行在标准的x86或ARM服务器上,负责所有预处理和后处理工作。它管理请求队列,执行分词(使用Hugging Face Tokenizers等库),并构建最优批次。GPU微服务集群则由搭载高端加速器(如NVIDIA H100、AMD MI300X)的服务器组成,专门用于运行推理引擎(如vLLM、TensorRT-LLM)。这些集群通过高速网络结构进行通信,例如用于节点内GPU通信的InfiniBand(400 Gbps)或NVIDIA NVLink/NVSwitch,以及用于节点间通信的RDMA over Converged Ethernet(RoCE)。关键工程挑战在于最小化解耦引入的网络延迟。现代RDMA技术可以实现微秒级的延迟,与大型模型数秒的推理时间相比,其开销几乎可以忽略不计。

多个开源项目正在引领这一方向。vLLM仓库(GitHub上超过40,000颗星)引入了“分离式预填充与解码”功能,这是完整SMG的前身。它将预填充(提示处理)和解码(令牌生成)这两个具有不同计算和内存访问模式的阶段,分配到不同的GPU集合上。更直接的是,SGLang项目(超过10,000颗星)实现了一种“RadixAttention”系统,可视为SMG的一种形式,其中基于CPU的调度器管理注意力键值(KV)缓存——这是一个主要的内存瓶颈。来自Anyscale的Ray Serve框架为构建此类微服务图提供了编排层,允许开发者将管线定义为由Actor组成的有向无环图(DAG)。

| 指标 | 单体架构 (1x H100) | SMG (2x CPU + 1x H100) | 提升幅度 |
|---|---|---|---|
| 吞吐量 (请求/秒) | 10 | 28 | 2.8倍 |
| GPU 利用率 (%) | 65 | 95 | +46% |
| CPU 利用率 (%) | 25 | 85 | +240% |
| 延迟 p99 (毫秒) | 1200 | 1050 | -12.5% |
| 每百万Token成本 | $0.50 | $0.18 | -64% |

*数据来自AINews内部基准测试,使用Llama 3.1 70B模型、vLLM以及基于InfiniBand的自定义SMG层。*

数据要点: 该表表明,SMG的主要优势不仅在于原始吞吐量,更在于资源效率。通过让GPU接近饱和运行,同时让CPU并行处理其工作负载,每Token的成本大幅下降,同时由于更好的批处理和减少的排队,延迟也得到了改善。

关键参与者与案例研究

SMG架构正由超大规模云厂商和初创公司共同积极开发。NVIDIA是关键赋能者,其NVLink和NVSwitch技术提供了实现高效CPU-GPU解耦所必需的低延迟、高带宽网络结构。其TensorRT-LLM推理框架现已包含对分离式服务的实验性支持,允许开发者定义独立的CPU和GPU节点。Anyscale(Ray背后的公司)是主要倡导者,将Ray Serve定位为SMG的理想编排层。他们已发布案例研究,显示使用类似的解耦架构,一个大型电商推荐系统的服务成本降低了3倍。

Together AIFireworks AI这两家领先的推理服务提供商,都已实现了专有版本的SMG。据报道,Together AI的平台使用一个自定义调度器,根据实时负载将请求动态路由到CPU预处理集群和GPU推理集群,实现了超过90%的GPU利用率。Fireworks AI已开源其部分基础设施,包括一个可作为独立CPU微服务部署的高性能分词器服务器。Modal(一个用于无服务器AI的云平台)原生支持此模式,允许用户定义在CPU和GPU上运行的函数,并具备自动伸缩和网络功能。

| 公司 | 方法 | 关键技术 | 报告的效率提升 |
|---|---|---|---|
| NVIDIA | 硬件 + 软件 | NVLink, TensorRT-LLM | 2-3倍吞吐量 |
| Anyscale | 编排 | Ray Serve | 3倍成本降低 |
| Together AI | 专有调度器 | 自定义路由 | 90%+ GPU利用率 |

更多来自 Hacker News

AI教AI:递归式智能体课程开启教育新纪元《智能体系统》课程以开源项目形式发布,是一场关于AI成熟度的自我验证实验。一个基于大型语言模型(LLM)、集成代码执行与记忆功能的AI编码智能体,独立完成了课程设计、代码生成与实时问答。这种递归式教学循环意味着,课程能够根据学生反馈调整讲解Anthropic的安全圣战:AI出口管制背后的 Trojan Horse?多年来,Anthropic一直将自己定位为AI行业的道德良知,不断警告存在性风险并要求严苛监管。然而,随着美国政府收紧对先进AI硬件和模型权重的出口管制,越来越多的批评者指出,Anthropic幕后的游说活动是关键的推动力量。AINews通Agent-trace:为AI生成代码颁发可验证的“出生证明”AI编程助手的崛起极大地加速了软件开发,但也引入了一个关键盲区:生成过程仍是一个黑箱。开发者无法审计AI如何得出某段特定代码,导致难以对漏洞、安全缺陷或许可违规追责。Agent-trace 直接填补了这一空白,它定义了一套标准化格式,捕捉A查看来源专题页Hacker News 已收录 5008 篇文章

相关专题

AI infrastructure310 篇相关文章

时间归档

May 20263028 篇已发布文章

延伸阅读

DeepSeek 74亿美元融资:中国AI联盟重塑全球竞争格局DeepSeek完成创纪录的74亿美元A轮融资,成为亚洲最大单笔AI投资。本轮融资由省级AI产业基金、顶级互联网集团及国家级战略投资者共同参与,标志着中国AI行业从碎片化初创模式向协同化联盟体系的战略转型。这笔资金将用于下一代大语言模型、共StayUp: The $2 macOS Tool That Fixes AI Agent WorkflowsStayUp, a $2 macOS utility, prevents lid-closed sleep, solving a critical pain point for developers running long-duratioContextual Intelligence: The Invisible Brain Making Enterprise AI Agents Actually WorkEnterprise AI deployment faces a critical inflection point: the bottleneck has shifted from model power to contextual unOVHcloud豪赌前沿AI:剑指欧洲第二大LLM开发商法国云服务商OVHcloud正从基础设施即服务向前沿AI模型开发进行战略大转身,目标直指欧洲大语言模型赛道的第二名。此举旨在为欧洲企业提供一套主权独立、垂直整合的AI堆栈,从而减少对美国科技巨头的依赖。

常见问题

这次模型发布“SMG Architecture Decouples CPU and GPU: The LLM Efficiency Revolution”的核心内容是什么?

The traditional approach to serving large language models (LLMs) tightly couples CPU and GPU resources within a single server, creating a profound inefficiency. The GPU, constraine…

从“What is SMG architecture in LLM serving”看,这个模型发布为什么重要?

The core insight of the SMG architecture is the recognition that CPU and GPU workloads in an LLM serving pipeline have fundamentally different resource demand curves. A typical request lifecycle involves: (1) tokenizatio…

围绕“CPU GPU decoupling benefits for AI inference”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。