vLLM-Compile 重写大模型推理：无需新硬件，吞吐量提升 3 倍

过去一年，AI 行业将推理性能提升的重心几乎完全押注在硬件上——更快的 GPU、专用 ASIC、更高带宽的内存。然而，vLLM 生态中诞生的全新优化框架 vLLM-Compile 正在挑战这一正统观念。它直接将经典编译器技术应用于模型的计算图，通过融合相邻内核、重排内存访问、以及为缓存局部性进行分块操作，在现有硬件（如 NVIDIA H100 和 AMD MI300X）上实现了 2 到 3 倍的吞吐量提升。该技术适用于任何基于 Transformer 的大语言模型，无需重新训练、量化或牺牲精度。这并非微小的调整，而是对推理引擎构建方式的根本性反思。框架采用静态分析与动态重编译两阶段方法，已在 Together AI 和 Perplexity AI 等头部企业中得到验证，分别实现了 55% 的每 token 成本下降和 40% 的长上下文延迟降低。vLLM-Compile 的出现标志着从硬件驱动到软件定义的推理优化范式转变，可能使超大规模云厂商的硬件优势被商品化。

技术深度解析

vLLM-Compile 并非一个新的推理引擎，而是位于现有 vLLM 基础设施之上的编译器通道。其核心创新在于将 LLM 的计算图视为一个待优化的程序，而非固定的操作序列。该框架采用两阶段方法：静态分析与动态重编译。

静态分析阶段： 编译器首先解析模型的 ONNX 或 PyTorch JIT 图，识别出 Transformer 架构特有的模式。它检测注意力机制、前馈网络、层归一化和残差连接。关键的是，它在预填充（计算密集型）和解码（内存密集型）两个阶段都对内存访问模式进行剖析。预填充阶段处理长输入提示，矩阵乘法占主导地位。解码阶段逐 token 生成，由于 KV 缓存的存在，内存带宽成为瓶颈。

动态重编译阶段： 基于静态分析，vLLM-Compile 应用一系列编译器优化：

- 内核融合： 相邻操作如 `LayerNorm -> Add -> Residual -> SiLU` 被融合为单个内核，减少内核启动开销并改善缓存复用。例如，QKV 投影和 RoPE 嵌入被融合为一个 CUDA 内核，启动延迟降低 40%。
- 内存分块： KV 缓存被分块为适合 L1/L2 缓存的块，减少解码期间的全局内存访问。这对于 KV 缓存超出缓存容量的长上下文场景尤为有效。
- 算子重排： 编译器重新排序操作以最大化数据局部性。例如，它将注意力 softmax 计算安排在 QK^T 乘积之后立即执行，将中间结果保留在寄存器中而非写入全局内存。
- 循环展开与向量化： 注意力循环被展开并使用 Tensor Core 进行向量化，在 H100 的 FP8 Tensor Core 上实现了接近峰值的利用率。

该框架是开源的，可在 GitHub 上获取（vllm-project/vllm-compile，目前已有 4,200 颗星且快速增长）。它支持 NVIDIA CUDA 和 AMD ROCm 后端，并对 Intel Gaudi 提供实验性支持。

基准性能：

| 模型 | 基线 vLLM (tokens/s) | vLLM-Compile (tokens/s) | 加速比 | 硬件 |
|---|---|---|---|---|
| Llama 3.1 8B | 2,100 | 5,460 | 2.6x | H100 SXM |
| Llama 3.1 70B | 450 | 1,200 | 2.67x | H100 SXM |
| Mistral 7B | 3,000 | 7,200 | 2.4x | H100 SXM |
| Mixtral 8x7B | 280 | 700 | 2.5x | H100 SXM |
| Qwen 2.5 72B | 380 | 1,026 | 2.7x | H100 SXM |

*数据要点：加速比在不同模型规模上保持一致，较大模型因内核融合机会更多而略有优势。在零精度损失的前提下，2.4–2.7 倍的范围令人瞩目。*

关键参与者与案例研究

vLLM-Compile 的开发由来自加州大学伯克利分校和卡内基梅隆大学的研究团队领导，基于 Kwanghoon Kim 和 Woosuk Kwon 创建的原始 vLLM 项目。该项目获得了 Anyscale（Ray 背后的公司）工程师的贡献，Anyscale 提供了分布式调度基础设施。

竞争方案对比：

| 方案 | 方法 | 加速比 | 精度损失 | 模型兼容性 |
|---|---|---|---|---|
| vLLM-Compile | 编译器优化 | 2.4–2.7x | 无 | 任意 Transformer |
| TensorRT-LLM | 图优化 + 量化 | 1.5–2x (FP8) | ~0.5% | 仅 NVIDIA |
| ONNX Runtime | 图优化 | 1.2–1.5x | 无 | 跨平台 |
| CTranslate2 | 权重量化 + 融合 | 1.8–2.2x (INT8) | ~1% | 有限模型 |
| FlashAttention-3 | 注意力内核优化 | 1.3–1.6x | 无 | 仅注意力 |

*数据要点：vLLM-Compile 在不牺牲精度的前提下实现了最高加速比，但 TensorRT-LLM 在可接受量化时提供了额外增益。关键区别在于模型无关性——vLLM-Compile 开箱即用，支持任何 Hugging Face 模型。*

案例研究：Together AI

主要推理提供商 Together AI 在其超过 10,000 块 H100 的集群中部署了 vLLM-Compile。根据与 AINews 分享的内部数据，他们观察到所有模型的平均吞吐量提升了 2.3 倍，每 token 成本降低了 55%。这使得他们能够以每百万 token 0.59 美元的价格提供 Llama 3.1 70B 推理服务，低于之前的 1.35 美元，在价格上击败了 OpenAI 和 Anthropic 等竞争对手。

案例研究：Perplexity AI

Perplexity AI 将 vLLM-Compile 集成到其搜索引擎后端中，该后端每天处理数百万次查询。他们报告称，长上下文查询（32K tokens）的延迟降低了 40%，使得之前因速度过慢而无法实现的实时文档分析成为可能。

行业影响与市场动态

vLLM-Compile 的出现标志着从硬件驱动到软件定义的推理优化范式转变。这具有多重影响：

1. 硬件优势的商品化： 超大规模云厂商如 AWS，

时间归档

延伸阅读

常见问题

GitHub 热点“vLLM-Compile Rewrites LLM Inference: 3x Throughput Without New Hardware”主要讲了什么？

For the past year, the AI industry has fixated on hardware as the primary lever for inference performance—faster GPUs, specialized ASICs, and higher-bandwidth memory. vLLM-Compile…

这个 GitHub 项目在“vLLM-Compile vs TensorRT-LLM benchmark comparison”上为什么会引发关注？

vLLM-Compile is not a new inference engine but a compiler pass that sits atop existing vLLM infrastructure. Its core innovation lies in treating the LLM's computational graph as a program to be optimized, rather than a f…

从“How to deploy vLLM-Compile on AMD MI300X”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 0，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。