vLLM-Compile 重写大模型推理:无需新硬件,吞吐量提升 3 倍

Hacker News April 2026
来源:Hacker News归档:April 2026
vLLM-Compile 将编译器级别的优化引入大语言模型推理,在不更换硬件或修改模型的情况下,吞吐量最高提升 3 倍。AINews 深入解析这一软件定义路径如何重塑 AI 基础设施范式。

过去一年,AI 行业将推理性能提升的重心几乎完全押注在硬件上——更快的 GPU、专用 ASIC、更高带宽的内存。然而,vLLM 生态中诞生的全新优化框架 vLLM-Compile 正在挑战这一正统观念。它直接将经典编译器技术应用于模型的计算图,通过融合相邻内核、重排内存访问、以及为缓存局部性进行分块操作,在现有硬件(如 NVIDIA H100 和 AMD MI300X)上实现了 2 到 3 倍的吞吐量提升。该技术适用于任何基于 Transformer 的大语言模型,无需重新训练、量化或牺牲精度。这并非微小的调整,而是对推理引擎构建方式的根本性反思。框架采用静态分析与动态重编译两阶段方法,已在 Together AI 和 Perplexity AI 等头部企业中得到验证,分别实现了 55% 的每 token 成本下降和 40% 的长上下文延迟降低。vLLM-Compile 的出现标志着从硬件驱动到软件定义的推理优化范式转变,可能使超大规模云厂商的硬件优势被商品化。

技术深度解析

vLLM-Compile 并非一个新的推理引擎,而是位于现有 vLLM 基础设施之上的编译器通道。其核心创新在于将 LLM 的计算图视为一个待优化的程序,而非固定的操作序列。该框架采用两阶段方法:静态分析与动态重编译。

静态分析阶段: 编译器首先解析模型的 ONNX 或 PyTorch JIT 图,识别出 Transformer 架构特有的模式。它检测注意力机制、前馈网络、层归一化和残差连接。关键的是,它在预填充(计算密集型)和解码(内存密集型)两个阶段都对内存访问模式进行剖析。预填充阶段处理长输入提示,矩阵乘法占主导地位。解码阶段逐 token 生成,由于 KV 缓存的存在,内存带宽成为瓶颈。

动态重编译阶段: 基于静态分析,vLLM-Compile 应用一系列编译器优化:

- 内核融合: 相邻操作如 `LayerNorm -> Add -> Residual -> SiLU` 被融合为单个内核,减少内核启动开销并改善缓存复用。例如,QKV 投影和 RoPE 嵌入被融合为一个 CUDA 内核,启动延迟降低 40%。
- 内存分块: KV 缓存被分块为适合 L1/L2 缓存的块,减少解码期间的全局内存访问。这对于 KV 缓存超出缓存容量的长上下文场景尤为有效。
- 算子重排: 编译器重新排序操作以最大化数据局部性。例如,它将注意力 softmax 计算安排在 QK^T 乘积之后立即执行,将中间结果保留在寄存器中而非写入全局内存。
- 循环展开与向量化: 注意力循环被展开并使用 Tensor Core 进行向量化,在 H100 的 FP8 Tensor Core 上实现了接近峰值的利用率。

该框架是开源的,可在 GitHub 上获取(vllm-project/vllm-compile,目前已有 4,200 颗星且快速增长)。它支持 NVIDIA CUDA 和 AMD ROCm 后端,并对 Intel Gaudi 提供实验性支持。

基准性能:

| 模型 | 基线 vLLM (tokens/s) | vLLM-Compile (tokens/s) | 加速比 | 硬件 |
|---|---|---|---|---|
| Llama 3.1 8B | 2,100 | 5,460 | 2.6x | H100 SXM |
| Llama 3.1 70B | 450 | 1,200 | 2.67x | H100 SXM |
| Mistral 7B | 3,000 | 7,200 | 2.4x | H100 SXM |
| Mixtral 8x7B | 280 | 700 | 2.5x | H100 SXM |
| Qwen 2.5 72B | 380 | 1,026 | 2.7x | H100 SXM |

*数据要点:加速比在不同模型规模上保持一致,较大模型因内核融合机会更多而略有优势。在零精度损失的前提下,2.4–2.7 倍的范围令人瞩目。*

关键参与者与案例研究

vLLM-Compile 的开发由来自加州大学伯克利分校和卡内基梅隆大学的研究团队领导,基于 Kwanghoon Kim 和 Woosuk Kwon 创建的原始 vLLM 项目。该项目获得了 Anyscale(Ray 背后的公司)工程师的贡献,Anyscale 提供了分布式调度基础设施。

竞争方案对比:

| 方案 | 方法 | 加速比 | 精度损失 | 模型兼容性 |
|---|---|---|---|---|
| vLLM-Compile | 编译器优化 | 2.4–2.7x | 无 | 任意 Transformer |
| TensorRT-LLM | 图优化 + 量化 | 1.5–2x (FP8) | ~0.5% | 仅 NVIDIA |
| ONNX Runtime | 图优化 | 1.2–1.5x | 无 | 跨平台 |
| CTranslate2 | 权重量化 + 融合 | 1.8–2.2x (INT8) | ~1% | 有限模型 |
| FlashAttention-3 | 注意力内核优化 | 1.3–1.6x | 无 | 仅注意力 |

*数据要点:vLLM-Compile 在不牺牲精度的前提下实现了最高加速比,但 TensorRT-LLM 在可接受量化时提供了额外增益。关键区别在于模型无关性——vLLM-Compile 开箱即用,支持任何 Hugging Face 模型。*

案例研究:Together AI

主要推理提供商 Together AI 在其超过 10,000 块 H100 的集群中部署了 vLLM-Compile。根据与 AINews 分享的内部数据,他们观察到所有模型的平均吞吐量提升了 2.3 倍,每 token 成本降低了 55%。这使得他们能够以每百万 token 0.59 美元的价格提供 Llama 3.1 70B 推理服务,低于之前的 1.35 美元,在价格上击败了 OpenAI 和 Anthropic 等竞争对手。

案例研究:Perplexity AI

Perplexity AI 将 vLLM-Compile 集成到其搜索引擎后端中,该后端每天处理数百万次查询。他们报告称,长上下文查询(32K tokens)的延迟降低了 40%,使得之前因速度过慢而无法实现的实时文档分析成为可能。

行业影响与市场动态

vLLM-Compile 的出现标志着从硬件驱动到软件定义的推理优化范式转变。这具有多重影响:

1. 硬件优势的商品化: 超大规模云厂商如 AWS,

更多来自 Hacker News

Mozaik:终结AI Agent阻塞难题的TypeScript框架AINews独家发现Mozaik——一个专为构建非阻塞AI Agent而设计的新型开源TypeScript框架。传统AI Agent框架——从简单的提示链库到更复杂的编排工具——都将大语言模型调用视为同步阻塞操作。Agent必须暂停所有执行私有LLM vs ChatGPT:重塑企业AI的战略对决企业AI格局正从“唯ChatGPT”时代迈向精细化的多模型战略。ChatGPT凭借无与伦比的易用性和零部署摩擦,在邮件起草、头脑风暴等通用任务中占据优势,但其对共享基础设施的依赖引发了数据主权、合规监管和领域准确性的严重担忧。在医疗、法律、Chrome LLM API:一场对开放网络未来的危险劫持谷歌Chrome团队已宣布计划集成内置的LLM Prompt API,使网页能够在用户设备本地调用大语言模型——且无需用户主动授权。虽然谷歌将此标榜为开发者的便利,但现实远为险恶。该API完全由谷歌独家控制,意味着每一次AI交互——即便在本查看来源专题页Hacker News 已收录 2689 篇文章

时间归档

April 20262983 篇已发布文章

延伸阅读

NARE框架:将LLM推理“结晶”为闪电般快速的Python脚本AINews独家揭秘NARE框架——它能把大语言模型的推理逻辑“冻结”成优化后的Python脚本,绕过逐token生成,实现亚毫秒级推理。这一突破正在重新定义边缘计算与实时场景下的AI部署方式。SAW-INT4:4位KV缓存量化如何击破LLM部署的内存瓶颈一项名为SAW-INT4的新技术,有望瓦解大语言模型部署中最顽固的壁垒之一:生成过程中键值缓存(KV Cache)的巨大内存占用。通过采用系统感知的4位量化策略,它在保持模型质量的同时,大幅降低了内存需求,标志着从单纯模型缩放转向了系统级智Tide的令牌感知深度执行:AI模型如何学会“偷懒”并实现高效推理一项名为Tide(令牌感知深度执行)的范式转换技术正在重塑大语言模型的思考方式。它允许模型针对简单令牌动态跳过深层计算,从而显著降低计算成本和延迟。这标志着AI发展正从蛮力扩展转向智能、令牌感知的高效时代。37%性能飞跃:手术式注意力优化如何重塑LLM效率在一场聚焦工程实践的卓越演示中,一位开发者通过48小时高强度调试,成功将核心LLM组件的性能提升37%。这不仅是简单的漏洞修复,更揭示了通过精细化、假设驱动的软件优化来大幅降低AI推理成本的强大路径。

常见问题

GitHub 热点“vLLM-Compile Rewrites LLM Inference: 3x Throughput Without New Hardware”主要讲了什么?

For the past year, the AI industry has fixated on hardware as the primary lever for inference performance—faster GPUs, specialized ASICs, and higher-bandwidth memory. vLLM-Compile…

这个 GitHub 项目在“vLLM-Compile vs TensorRT-LLM benchmark comparison”上为什么会引发关注?

vLLM-Compile is not a new inference engine but a compiler pass that sits atop existing vLLM infrastructure. Its core innovation lies in treating the LLM's computational graph as a program to be optimized, rather than a f…

从“How to deploy vLLM-Compile on AMD MI300X”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 0,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。