Ray Serve + vLLM + GKE:云原生革命重塑大模型推理,成本直降60%

Hacker News June 2026
来源:Hacker News归档:June 2026
Ray Serve、vLLM 与 Google Kubernetes Engine(GKE)三大技术栈融合,构建起一套云原生推理架构,将大模型部署成本削减 60%,同时实现亚秒级延迟。这一集成标志着从静态 GPU 集群向弹性、微服务化的大语言模型管理模式的根本性转变。

Ray Serve、vLLM 与 GKE 的融合,代表了大语言模型在生产环境中部署方式的根本性重构。传统推理框架迫使运维人员为应对流量峰值而过度配置 GPU,否则就面临需求激增时服务质量下降的风险。Ray Serve 的弹性调度,结合 vLLM 的 PagedAttention 算法与内存高效内核,使得 LLM 推理能够在 Kubernetes Pod 间实现近乎线性的扩展。这意味着开发者可以将 Llama 3 70B 模型当作任何无状态微服务来对待,享受自动扩缩、滚动更新和容错能力。实际效果令人震撼:推理成本最高降低 60%,因为 GPU 资源按需分配,而非为最坏情况预留;延迟降至亚秒级。

技术深度解析

核心创新在于 Ray Serve、vLLM 与 GKE 如何将各自优势编织成一个统一的推理网络。让我们逐层剖析。

Ray Serve 是一个基于 Ray 分布式计算框架构建的模型服务库。它提供声明式 API 来定义部署图、自动请求批处理,以及基于队列深度或自定义指标的动态扩缩。关键之处在于,Ray Serve 通过 Ray Kubernetes Operator 与 Kubernetes 集成,该 Operator 将 Ray 集群作为自定义资源进行管理。这使得 Ray 集群能够根据流量自动扩缩其工作节点(承载 GPU 驱动的 vLLM 副本),无需人工干预。

vLLM 是一个开源推理引擎,通过 PagedAttention 实现了业界领先的吞吐量。PagedAttention 是一种内存管理算法,它将 KV 缓存视为非连续页面,类似于操作系统中的虚拟内存。这消除了碎片化问题,使得 GPU 内存利用率接近 100%。vLLM 还实现了连续批处理——引擎会在早期请求完成后动态地将新到达的请求加入当前批次,而非等待固定批次完成。结合 FlashAttention-2 内核,vLLM 的吞吐量比 Hugging Face Transformers 或 Text Generation Inference(TGI)高出 2-4 倍。

GKE(Google Kubernetes Engine) 提供了编排层。借助 GKE 的节点自动预配和 GPU 资源配额,集群可以按需启动 A100 或 H100 节点。与 Ray Serve 的集成意味着,当创建新的 Ray Serve 部署时,GKE 会自动预配所需的 GPU 节点;当流量消退时,它会缩容至零。

| 指标 | 传统方案(Hugging Face + 静态集群) | Ray Serve + vLLM + GKE | 提升幅度 |
|---|---|---|---|
| 延迟(p50,Llama 3 70B) | 1.8s | 0.4s | 快 4.5 倍 |
| 吞吐量(请求/秒,8xA100) | 45 | 180 | 高 4 倍 |
| GPU 利用率(平均) | 35% | 85% | 好 2.4 倍 |
| 每百万 Token 成本(Llama 3 70B) | $1.20 | $0.48 | 降低 60% |
| 扩缩时间(0 到 8 块 GPU) | 15 分钟(手动) | 2 分钟(自动) | 快 7.5 倍 |

数据要点: 该表显示,这套技术栈在延迟、吞吐量、利用率和成本方面实现了同步提升。60% 的成本降低并非理论推测——它源于消除闲置 GPU 容量并最大化每块 GPU 的吞吐量。

对于希望复现此方案的工程师而言,开源生态已相当成熟。`ray-project/ray` GitHub 仓库(超过 35,000 星)包含 Serve 模块和 Kubernetes Operator。`vllm-project/vllm` 仓库(超过 30,000 星)包含引擎以及与 Ray 的集成示例。Google 提供了在 GKE 上使用 Ray Serve 部署 vLLM 的官方文档,包括 Helm Chart 和 Terraform 模板。

关键参与者与案例研究

这一集成并非孤立的实验,而是由各项目的核心维护者推动,并被大型企业广泛采用。

Ray 由 Anyscale 开发,该公司由 Ray 框架的创建者(包括 UC Berkeley 教授、Databricks 联合创始人 Ion Stoica)创立。Anyscale 平台提供托管 Ray 集群,但开源 Ray 项目仍是主要发行版。Ray Serve 模块之所以被迅速采用,是因为它抽象了分布式推理的复杂性——开发者只需使用 `@serve.deployment` 定义部署,Ray 即可处理副本、负载均衡和健康检查。

vLLM 由 UC Berkeley 的 Woosuk Kwon 和 Ion Stoica 教授领导的团队创建。它源于高效 LLM 服务的研究,并迅速成为开源推理的事实标准。该项目现由 vLLM 团队维护,并获得了 NVIDIA、Google 和 Microsoft 的贡献。与 Ray 的集成是经过深思熟虑的设计选择——vLLM 原生支持 Ray 进行跨多 GPU 的分布式张量并行。

Google Cloud 投入了大量资源,使 GKE 成为 AI 工作负载的首选平台。GKE 团队发布了 Ray Serve + vLLM 的参考架构,并附有性能基准测试。Google 内部团队也在 Vertex AI Model Garden 和 Duet AI 等产品中使用这一技术栈。

| 解决方案 | 开源 | Kubernetes 原生 | PagedAttention | 弹性扩缩 | 成本模型 |
|---|---|---|---|---|---|
| Ray Serve + vLLM + GKE | 是 | 是 | 是 | 是 | 按使用量付费 GPU |
| NVIDIA Triton + TensorRT-LLM | 部分 | 通过 K8s | 否 | 有限 | 预留 GPU |
| Hugging Face TGI | 是 | 通过 Helm | 否 | 手动 | 预留 GPU |
| Amazon SageMaker | 否 | 否 | 否 | 自动扩缩 | 按小时付费 |

数据要点: 该表显示,Ray Serve + vLLM + GKE 技术栈是唯一完全开源、Kubernetes 原生且结合了 PagedAttention 与弹性扩缩的解决方案。NVIDIA Triton 等竞品虽性能出色,但需要专有组件。

更多来自 Hacker News

LLM将内核调优从分钟级压缩至秒级:实时AI优化的黎明传统的内核自动调优方法一直依赖蛮力搜索:穷举编译器标志、循环变换和内存布局的组合空间,以找到最优配置。虽然有效,但这一过程极其缓慢,复杂内核往往需要数分钟甚至数小时。如今,一种新颖方法借助大型语言模型彻底改变了这一格局。LLM不再将搜索空间AI Commander:解锁云端AI代理的远程桌面时刻数月以来,AI代理生态系统一直专注于提升大语言模型能力和构建更复杂的代理框架。然而,一个关键的“最后一公里”问题始终未解:如何让这些智能代理安全、即时地触及用户的真实物理设备。防火墙、端口转发、SSH密钥管理以及复杂的网络拓扑,迫使大多数A浏览器端AI助手终结服务器成本:云依赖聊天机器人的末日来临AINews发现了一场AI部署领域的静默革命:一个能将任何静态FAQ文档转化为完全功能、交互式AI助手的平台,且该助手完全在用户浏览器内运行。其核心创新在于客户端推理——利用WebAssembly和优化的小型语言模型处理查询,无需任何服务器查看来源专题页Hacker News 已收录 4901 篇文章

时间归档

June 20261801 篇已发布文章

延伸阅读

DwarfStar分布式推理:大模型正从云端巨头“蜂拥”至边缘节点DwarfStar是一种全新的分布式推理架构,它将大语言模型的计算任务拆分到数百个轻量级节点上,从而打破了GPU集群的垄断。这一从集中式云到去中心化“蜂群”的范式转变,有望大幅降低延迟、实现AI民主化,并解锁边缘端的实时AI能力。四张RTX 3090、6美元无限AI:那个黎明前险些崩盘的创业故事一位独立开发者押上全部身家,用四张RTX 3090显卡搭建服务器,推出每月仅6美元的无限AI访问服务。上线首日系统便陷入崩溃,60位排队用户几乎全部流失。仅剩的几位测试者却撑起了这个项目,在绝境中艰难重生。LLM推理的隐秘革命:系统程序员手握5倍加速密钥大语言模型推理的瓶颈已从模型架构根本性地转向系统级工程。内存带宽、内核融合与GPU调度主导性能,在不改变任何模型参数的情况下,可实现2至5倍的吞吐量提升。这彻底改变了AI产品的构建与部署方式。DigitalOcean的AI原生云:一场面向开发者的模型部署革命DigitalOcean正式推出AI原生云战略,从通用虚拟机全面转向GPU推理工作负载。通过深度整合vLLM与Hugging Face实现一键部署,这家云服务商正大幅降低小团队启动AI应用的门槛,在总拥有成本上向超大规模云厂商发起挑战。

常见问题

GitHub 热点“Ray Serve and vLLM on GKE: The Cloud-Native Revolution Reshaping LLM Inference”主要讲了什么?

The fusion of Ray Serve, vLLM, and GKE represents a fundamental re-architecture of how large language models are deployed in production. Traditional inference frameworks force oper…

这个 GitHub 项目在“Ray Serve vLLM GKE deployment tutorial”上为什么会引发关注?

The core innovation lies in how Ray Serve, vLLM, and GKE compose their respective strengths into a unified inference fabric. Let's dissect each layer. Ray Serve is a model-serving library built on Ray, the distributed co…

从“Ray Serve vs Triton Inference Server comparison”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 0,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。