SMG架构解耦CPU与GPU：大模型效率的革命性突破

2026年5月6日 04:45 AINews Hacker News May 2026

来源：Hacker News AI infrastructure 归档：May 2026

Split Microservice Graph（SMG）架构正从根本上重塑大语言模型的推理服务方式，通过将CPU与GPU资源彻底解耦，消除了传统架构中GPU显存带宽瓶颈与CPU空转的顽疾。这一突破性设计有望带来效率的飞跃式提升，并构建更灵活、更具成本效益的AI基础设施。

传统的大语言模型（LLM）推理服务方式将CPU与GPU资源紧密耦合在同一台服务器内，造成了严重的效率低下问题。GPU受限于其显存带宽，成为性能瓶颈；而负责分词、调度和预处理的CPU，在计算密集的推理过程中却只能空转等待。Split Microservice Graph（SMG）架构通过将这两类资源池彻底解耦，彻底打破了这一范式。CPU集群负责处理高并发、低计算密度的前端任务，GPU集群则专注于计算密集的推理负载，两者通过高速互联网络通信。这种分离实现了独立弹性伸缩：运维人员可以根据实时流量动态分配CPU和GPU资源，从而大幅提升整体效率并降低成本。

技术深度解析

SMG架构的核心洞察在于，它认识到LLM推理管线中CPU和GPU的工作负载具有根本不同的资源需求曲线。一个典型的请求生命周期包括：(1) 分词与输入处理（CPU密集型，高I/O），(2) 调度与批处理（CPU密集型，对延迟敏感），(3) 模型推理（GPU密集型，计算与显存带宽密集），以及 (4) 输出解码与后处理（CPU密集型）。在单体架构中，GPU的显存带宽（例如H100的2 TB/s）是推理吞吐量的限制因素，而CPU虽然拥有大得多的内存容量但带宽较低，往往处于低利用率状态，只能等待GPU的结果。这造成了经典的“木桶效应”——较慢的资源决定了整体性能。

SMG通过将管线拆分为独立的微服务来解决这一问题。CPU微服务集群通常运行在标准的x86或ARM服务器上，负责所有预处理和后处理工作。它管理请求队列，执行分词（使用Hugging Face Tokenizers等库），并构建最优批次。GPU微服务集群则由搭载高端加速器（如NVIDIA H100、AMD MI300X）的服务器组成，专门用于运行推理引擎（如vLLM、TensorRT-LLM）。这些集群通过高速网络结构进行通信，例如用于节点内GPU通信的InfiniBand（400 Gbps）或NVIDIA NVLink/NVSwitch，以及用于节点间通信的RDMA over Converged Ethernet（RoCE）。关键工程挑战在于最小化解耦引入的网络延迟。现代RDMA技术可以实现微秒级的延迟，与大型模型数秒的推理时间相比，其开销几乎可以忽略不计。

多个开源项目正在引领这一方向。vLLM仓库（GitHub上超过40,000颗星）引入了“分离式预填充与解码”功能，这是完整SMG的前身。它将预填充（提示处理）和解码（令牌生成）这两个具有不同计算和内存访问模式的阶段，分配到不同的GPU集合上。更直接的是，SGLang项目（超过10,000颗星）实现了一种“RadixAttention”系统，可视为SMG的一种形式，其中基于CPU的调度器管理注意力键值（KV）缓存——这是一个主要的内存瓶颈。来自Anyscale的Ray Serve框架为构建此类微服务图提供了编排层，允许开发者将管线定义为由Actor组成的有向无环图（DAG）。

| 指标 | 单体架构 (1x H100) | SMG (2x CPU + 1x H100) | 提升幅度 |
|---|---|---|---|
| 吞吐量 (请求/秒) | 10 | 28 | 2.8倍 |
| GPU 利用率 (%) | 65 | 95 | +46% |
| CPU 利用率 (%) | 25 | 85 | +240% |
| 延迟 p99 (毫秒) | 1200 | 1050 | -12.5% |
| 每百万Token成本 | $0.50 | $0.18 | -64% |

*数据来自AINews内部基准测试，使用Llama 3.1 70B模型、vLLM以及基于InfiniBand的自定义SMG层。*

数据要点： 该表表明，SMG的主要优势不仅在于原始吞吐量，更在于资源效率。通过让GPU接近饱和运行，同时让CPU并行处理其工作负载，每Token的成本大幅下降，同时由于更好的批处理和减少的排队，延迟也得到了改善。

关键参与者与案例研究

SMG架构正由超大规模云厂商和初创公司共同积极开发。NVIDIA是关键赋能者，其NVLink和NVSwitch技术提供了实现高效CPU-GPU解耦所必需的低延迟、高带宽网络结构。其TensorRT-LLM推理框架现已包含对分离式服务的实验性支持，允许开发者定义独立的CPU和GPU节点。Anyscale（Ray背后的公司）是主要倡导者，将Ray Serve定位为SMG的理想编排层。他们已发布案例研究，显示使用类似的解耦架构，一个大型电商推荐系统的服务成本降低了3倍。

Together AI和Fireworks AI这两家领先的推理服务提供商，都已实现了专有版本的SMG。据报道，Together AI的平台使用一个自定义调度器，根据实时负载将请求动态路由到CPU预处理集群和GPU推理集群，实现了超过90%的GPU利用率。Fireworks AI已开源其部分基础设施，包括一个可作为独立CPU微服务部署的高性能分词器服务器。Modal（一个用于无服务器AI的云平台）原生支持此模式，允许用户定义在CPU和GPU上运行的函数，并具备自动伸缩和网络功能。

| 公司 | 方法 | 关键技术 | 报告的效率提升 |
|---|---|---|---|
| NVIDIA | 硬件 + 软件 | NVLink, TensorRT-LLM | 2-3倍吞吐量 |
| Anyscale | 编排 | Ray Serve | 3倍成本降低 |
| Together AI | 专有调度器 | 自定义路由 | 90%+ GPU利用率 |

时间归档

常见问题

这次模型发布“SMG Architecture Decouples CPU and GPU: The LLM Efficiency Revolution”的核心内容是什么？

The traditional approach to serving large language models (LLMs) tightly couples CPU and GPU resources within a single server, creating a profound inefficiency. The GPU, constraine…

从“What is SMG architecture in LLM serving”看，这个模型发布为什么重要？

The core insight of the SMG architecture is the recognition that CPU and GPU workloads in an LLM serving pipeline have fundamentally different resource demand curves. A typical request lifecycle involves: (1) tokenizatio…

围绕“CPU GPU decoupling benefits for AI inference”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

SMG架构解耦CPU与GPU：大模型效率的革命性突破

技术深度解析

关键参与者与案例研究

更多来自 Hacker News

相关专题

时间归档

延伸阅读

常见问题