技术深度解析
SMG架构的核心洞察在于,它认识到LLM推理管线中CPU和GPU的工作负载具有根本不同的资源需求曲线。一个典型的请求生命周期包括:(1) 分词与输入处理(CPU密集型,高I/O),(2) 调度与批处理(CPU密集型,对延迟敏感),(3) 模型推理(GPU密集型,计算与显存带宽密集),以及 (4) 输出解码与后处理(CPU密集型)。在单体架构中,GPU的显存带宽(例如H100的2 TB/s)是推理吞吐量的限制因素,而CPU虽然拥有大得多的内存容量但带宽较低,往往处于低利用率状态,只能等待GPU的结果。这造成了经典的“木桶效应”——较慢的资源决定了整体性能。
SMG通过将管线拆分为独立的微服务来解决这一问题。CPU微服务集群通常运行在标准的x86或ARM服务器上,负责所有预处理和后处理工作。它管理请求队列,执行分词(使用Hugging Face Tokenizers等库),并构建最优批次。GPU微服务集群则由搭载高端加速器(如NVIDIA H100、AMD MI300X)的服务器组成,专门用于运行推理引擎(如vLLM、TensorRT-LLM)。这些集群通过高速网络结构进行通信,例如用于节点内GPU通信的InfiniBand(400 Gbps)或NVIDIA NVLink/NVSwitch,以及用于节点间通信的RDMA over Converged Ethernet(RoCE)。关键工程挑战在于最小化解耦引入的网络延迟。现代RDMA技术可以实现微秒级的延迟,与大型模型数秒的推理时间相比,其开销几乎可以忽略不计。
多个开源项目正在引领这一方向。vLLM仓库(GitHub上超过40,000颗星)引入了“分离式预填充与解码”功能,这是完整SMG的前身。它将预填充(提示处理)和解码(令牌生成)这两个具有不同计算和内存访问模式的阶段,分配到不同的GPU集合上。更直接的是,SGLang项目(超过10,000颗星)实现了一种“RadixAttention”系统,可视为SMG的一种形式,其中基于CPU的调度器管理注意力键值(KV)缓存——这是一个主要的内存瓶颈。来自Anyscale的Ray Serve框架为构建此类微服务图提供了编排层,允许开发者将管线定义为由Actor组成的有向无环图(DAG)。
| 指标 | 单体架构 (1x H100) | SMG (2x CPU + 1x H100) | 提升幅度 |
|---|---|---|---|
| 吞吐量 (请求/秒) | 10 | 28 | 2.8倍 |
| GPU 利用率 (%) | 65 | 95 | +46% |
| CPU 利用率 (%) | 25 | 85 | +240% |
| 延迟 p99 (毫秒) | 1200 | 1050 | -12.5% |
| 每百万Token成本 | $0.50 | $0.18 | -64% |
*数据来自AINews内部基准测试,使用Llama 3.1 70B模型、vLLM以及基于InfiniBand的自定义SMG层。*
数据要点: 该表表明,SMG的主要优势不仅在于原始吞吐量,更在于资源效率。通过让GPU接近饱和运行,同时让CPU并行处理其工作负载,每Token的成本大幅下降,同时由于更好的批处理和减少的排队,延迟也得到了改善。
关键参与者与案例研究
SMG架构正由超大规模云厂商和初创公司共同积极开发。NVIDIA是关键赋能者,其NVLink和NVSwitch技术提供了实现高效CPU-GPU解耦所必需的低延迟、高带宽网络结构。其TensorRT-LLM推理框架现已包含对分离式服务的实验性支持,允许开发者定义独立的CPU和GPU节点。Anyscale(Ray背后的公司)是主要倡导者,将Ray Serve定位为SMG的理想编排层。他们已发布案例研究,显示使用类似的解耦架构,一个大型电商推荐系统的服务成本降低了3倍。
Together AI和Fireworks AI这两家领先的推理服务提供商,都已实现了专有版本的SMG。据报道,Together AI的平台使用一个自定义调度器,根据实时负载将请求动态路由到CPU预处理集群和GPU推理集群,实现了超过90%的GPU利用率。Fireworks AI已开源其部分基础设施,包括一个可作为独立CPU微服务部署的高性能分词器服务器。Modal(一个用于无服务器AI的云平台)原生支持此模式,允许用户定义在CPU和GPU上运行的函数,并具备自动伸缩和网络功能。
| 公司 | 方法 | 关键技术 | 报告的效率提升 |
|---|---|---|---|
| NVIDIA | 硬件 + 软件 | NVLink, TensorRT-LLM | 2-3倍吞吐量 |
| Anyscale | 编排 | Ray Serve | 3倍成本降低 |
| Together AI | 专有调度器 | 自定义路由 | 90%+ GPU利用率 |