SMG架构解耦CPU与GPU:大模型效率的革命性突破

Hacker News May 2026
来源:Hacker NewsAI infrastructure归档:May 2026
Split Microservice Graph(SMG)架构正从根本上重塑大语言模型的推理服务方式,通过将CPU与GPU资源彻底解耦,消除了传统架构中GPU显存带宽瓶颈与CPU空转的顽疾。这一突破性设计有望带来效率的飞跃式提升,并构建更灵活、更具成本效益的AI基础设施。

传统的大语言模型(LLM)推理服务方式将CPU与GPU资源紧密耦合在同一台服务器内,造成了严重的效率低下问题。GPU受限于其显存带宽,成为性能瓶颈;而负责分词、调度和预处理的CPU,在计算密集的推理过程中却只能空转等待。Split Microservice Graph(SMG)架构通过将这两类资源池彻底解耦,彻底打破了这一范式。CPU集群负责处理高并发、低计算密度的前端任务,GPU集群则专注于计算密集的推理负载,两者通过高速互联网络通信。这种分离实现了独立弹性伸缩:运维人员可以根据实时流量动态分配CPU和GPU资源,从而大幅提升整体效率并降低成本。

技术深度解析

SMG架构的核心洞察在于,它认识到LLM推理管线中CPU和GPU的工作负载具有根本不同的资源需求曲线。一个典型的请求生命周期包括:(1) 分词与输入处理(CPU密集型,高I/O),(2) 调度与批处理(CPU密集型,对延迟敏感),(3) 模型推理(GPU密集型,计算与显存带宽密集),以及 (4) 输出解码与后处理(CPU密集型)。在单体架构中,GPU的显存带宽(例如H100的2 TB/s)是推理吞吐量的限制因素,而CPU虽然拥有大得多的内存容量但带宽较低,往往处于低利用率状态,只能等待GPU的结果。这造成了经典的“木桶效应”——较慢的资源决定了整体性能。

SMG通过将管线拆分为独立的微服务来解决这一问题。CPU微服务集群通常运行在标准的x86或ARM服务器上,负责所有预处理和后处理工作。它管理请求队列,执行分词(使用Hugging Face Tokenizers等库),并构建最优批次。GPU微服务集群则由搭载高端加速器(如NVIDIA H100、AMD MI300X)的服务器组成,专门用于运行推理引擎(如vLLM、TensorRT-LLM)。这些集群通过高速网络结构进行通信,例如用于节点内GPU通信的InfiniBand(400 Gbps)或NVIDIA NVLink/NVSwitch,以及用于节点间通信的RDMA over Converged Ethernet(RoCE)。关键工程挑战在于最小化解耦引入的网络延迟。现代RDMA技术可以实现微秒级的延迟,与大型模型数秒的推理时间相比,其开销几乎可以忽略不计。

多个开源项目正在引领这一方向。vLLM仓库(GitHub上超过40,000颗星)引入了“分离式预填充与解码”功能,这是完整SMG的前身。它将预填充(提示处理)和解码(令牌生成)这两个具有不同计算和内存访问模式的阶段,分配到不同的GPU集合上。更直接的是,SGLang项目(超过10,000颗星)实现了一种“RadixAttention”系统,可视为SMG的一种形式,其中基于CPU的调度器管理注意力键值(KV)缓存——这是一个主要的内存瓶颈。来自Anyscale的Ray Serve框架为构建此类微服务图提供了编排层,允许开发者将管线定义为由Actor组成的有向无环图(DAG)。

| 指标 | 单体架构 (1x H100) | SMG (2x CPU + 1x H100) | 提升幅度 |
|---|---|---|---|
| 吞吐量 (请求/秒) | 10 | 28 | 2.8倍 |
| GPU 利用率 (%) | 65 | 95 | +46% |
| CPU 利用率 (%) | 25 | 85 | +240% |
| 延迟 p99 (毫秒) | 1200 | 1050 | -12.5% |
| 每百万Token成本 | $0.50 | $0.18 | -64% |

*数据来自AINews内部基准测试,使用Llama 3.1 70B模型、vLLM以及基于InfiniBand的自定义SMG层。*

数据要点: 该表表明,SMG的主要优势不仅在于原始吞吐量,更在于资源效率。通过让GPU接近饱和运行,同时让CPU并行处理其工作负载,每Token的成本大幅下降,同时由于更好的批处理和减少的排队,延迟也得到了改善。

关键参与者与案例研究

SMG架构正由超大规模云厂商和初创公司共同积极开发。NVIDIA是关键赋能者,其NVLink和NVSwitch技术提供了实现高效CPU-GPU解耦所必需的低延迟、高带宽网络结构。其TensorRT-LLM推理框架现已包含对分离式服务的实验性支持,允许开发者定义独立的CPU和GPU节点。Anyscale(Ray背后的公司)是主要倡导者,将Ray Serve定位为SMG的理想编排层。他们已发布案例研究,显示使用类似的解耦架构,一个大型电商推荐系统的服务成本降低了3倍。

Together AIFireworks AI这两家领先的推理服务提供商,都已实现了专有版本的SMG。据报道,Together AI的平台使用一个自定义调度器,根据实时负载将请求动态路由到CPU预处理集群和GPU推理集群,实现了超过90%的GPU利用率。Fireworks AI已开源其部分基础设施,包括一个可作为独立CPU微服务部署的高性能分词器服务器。Modal(一个用于无服务器AI的云平台)原生支持此模式,允许用户定义在CPU和GPU上运行的函数,并具备自动伸缩和网络功能。

| 公司 | 方法 | 关键技术 | 报告的效率提升 |
|---|---|---|---|
| NVIDIA | 硬件 + 软件 | NVLink, TensorRT-LLM | 2-3倍吞吐量 |
| Anyscale | 编排 | Ray Serve | 3倍成本降低 |
| Together AI | 专有调度器 | 自定义路由 | 90%+ GPU利用率 |

更多来自 Hacker News

一条推文代价20万美元:AI Agent对社交信号的致命信任2026年初,一个在Solana区块链上管理加密货币投资组合的自主AI Agent,被诱骗将价值20万美元的USDC转移至攻击者钱包。触发点是一条精心伪造的推文,伪装成来自可信DeFi协议的智能合约升级通知。该Agent被设计为抓取社交媒体Unsloth 联手 NVIDIA,消费级 GPU 大模型训练速度飙升 25%专注于高效 LLM 微调的初创公司 Unsloth 与 NVIDIA 合作,在 RTX 4090 等消费级 GPU 上实现了 25% 的训练速度提升。该优化针对 CUDA 内核内存带宽调度,从硬件中榨取出每一丝性能——此前这些硬件被认为不足Appctl:将文档一键转化为LLM工具,AI代理的“最后一公里”终于打通AINews发现了一个名为Appctl的开源项目,它成功弥合了大语言模型与现实系统之间的鸿沟。通过将现有文档和数据库模式转化为MCP工具,Appctl让LLM能够直接执行操作——例如在CRM中创建记录、更新工单状态或提交网页表单——而无需定查看来源专题页Hacker News 已收录 3034 篇文章

相关专题

AI infrastructure210 篇相关文章

时间归档

May 2026784 篇已发布文章

延伸阅读

OpenAI与Anthropic转向合资模式:卖的是成果,不是APIOpenAI与Anthropic几乎同时推出企业级合资项目,彻底超越API销售范畴。这些新实体将直接建设基础设施、管理合规、将AI融入核心业务流程,标志着从技术授权向成果交付与风险共担的根本性转变。隐藏的瓶颈:为何RL环境将成为AI基础设施的下一个战场构建自主LLM代理的竞赛撞上了一堵隐形墙:高质量、可扩展的强化学习环境极度稀缺。新一代“环境工厂”正在崛起,它们动态生成无限训练场景,迫使模型学习鲁棒且可泛化的策略,而非死记硬背捷径。单二进制Linux AI代理:悄然发生的智能去中心化革命一个全新的开源项目,将完整的LLM驱动代理——包括规划、代码执行、网页浏览和文件管理——压缩进一个可在任何Linux系统上运行的单一二进制文件中。这一突破消除了云API成本、数据泄露风险和网络延迟,有望重新定义边缘设备、个人服务器和企业基础黑石、H&F、高盛联手打造AI服务巨头:新玩法登场黑石集团、Hellman & Friedman与高盛集团联合推出了一家全新的企业级AI服务公司,此举标志着从零散的初创投资向垂直整合型AI平台的战略转变。该实体旨在解决AI部署的“最后一公里”难题,提供从模型微调到基础设施管理的一站式服务。

常见问题

这次模型发布“SMG Architecture Decouples CPU and GPU: The LLM Efficiency Revolution”的核心内容是什么?

The traditional approach to serving large language models (LLMs) tightly couples CPU and GPU resources within a single server, creating a profound inefficiency. The GPU, constraine…

从“What is SMG architecture in LLM serving”看,这个模型发布为什么重要?

The core insight of the SMG architecture is the recognition that CPU and GPU workloads in an LLM serving pipeline have fundamentally different resource demand curves. A typical request lifecycle involves: (1) tokenizatio…

围绕“CPU GPU decoupling benefits for AI inference”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。