vLLM-Compile 重写大模型推理:无需新硬件,吞吐量提升 3 倍

Hacker News April 2026
来源:Hacker News归档:April 2026
vLLM-Compile 将编译器级别的优化引入大语言模型推理,在不更换硬件或修改模型的情况下,吞吐量最高提升 3 倍。AINews 深入解析这一软件定义路径如何重塑 AI 基础设施范式。

过去一年,AI 行业将推理性能提升的重心几乎完全押注在硬件上——更快的 GPU、专用 ASIC、更高带宽的内存。然而,vLLM 生态中诞生的全新优化框架 vLLM-Compile 正在挑战这一正统观念。它直接将经典编译器技术应用于模型的计算图,通过融合相邻内核、重排内存访问、以及为缓存局部性进行分块操作,在现有硬件(如 NVIDIA H100 和 AMD MI300X)上实现了 2 到 3 倍的吞吐量提升。该技术适用于任何基于 Transformer 的大语言模型,无需重新训练、量化或牺牲精度。这并非微小的调整,而是对推理引擎构建方式的根本性反思。框架采用静态分析与动态重编译两阶段方法,已在 Together AI 和 Perplexity AI 等头部企业中得到验证,分别实现了 55% 的每 token 成本下降和 40% 的长上下文延迟降低。vLLM-Compile 的出现标志着从硬件驱动到软件定义的推理优化范式转变,可能使超大规模云厂商的硬件优势被商品化。

技术深度解析

vLLM-Compile 并非一个新的推理引擎,而是位于现有 vLLM 基础设施之上的编译器通道。其核心创新在于将 LLM 的计算图视为一个待优化的程序,而非固定的操作序列。该框架采用两阶段方法:静态分析与动态重编译。

静态分析阶段: 编译器首先解析模型的 ONNX 或 PyTorch JIT 图,识别出 Transformer 架构特有的模式。它检测注意力机制、前馈网络、层归一化和残差连接。关键的是,它在预填充(计算密集型)和解码(内存密集型)两个阶段都对内存访问模式进行剖析。预填充阶段处理长输入提示,矩阵乘法占主导地位。解码阶段逐 token 生成,由于 KV 缓存的存在,内存带宽成为瓶颈。

动态重编译阶段: 基于静态分析,vLLM-Compile 应用一系列编译器优化:

- 内核融合: 相邻操作如 `LayerNorm -> Add -> Residual -> SiLU` 被融合为单个内核,减少内核启动开销并改善缓存复用。例如,QKV 投影和 RoPE 嵌入被融合为一个 CUDA 内核,启动延迟降低 40%。
- 内存分块: KV 缓存被分块为适合 L1/L2 缓存的块,减少解码期间的全局内存访问。这对于 KV 缓存超出缓存容量的长上下文场景尤为有效。
- 算子重排: 编译器重新排序操作以最大化数据局部性。例如,它将注意力 softmax 计算安排在 QK^T 乘积之后立即执行,将中间结果保留在寄存器中而非写入全局内存。
- 循环展开与向量化: 注意力循环被展开并使用 Tensor Core 进行向量化,在 H100 的 FP8 Tensor Core 上实现了接近峰值的利用率。

该框架是开源的,可在 GitHub 上获取(vllm-project/vllm-compile,目前已有 4,200 颗星且快速增长)。它支持 NVIDIA CUDA 和 AMD ROCm 后端,并对 Intel Gaudi 提供实验性支持。

基准性能:

| 模型 | 基线 vLLM (tokens/s) | vLLM-Compile (tokens/s) | 加速比 | 硬件 |
|---|---|---|---|---|
| Llama 3.1 8B | 2,100 | 5,460 | 2.6x | H100 SXM |
| Llama 3.1 70B | 450 | 1,200 | 2.67x | H100 SXM |
| Mistral 7B | 3,000 | 7,200 | 2.4x | H100 SXM |
| Mixtral 8x7B | 280 | 700 | 2.5x | H100 SXM |
| Qwen 2.5 72B | 380 | 1,026 | 2.7x | H100 SXM |

*数据要点:加速比在不同模型规模上保持一致,较大模型因内核融合机会更多而略有优势。在零精度损失的前提下,2.4–2.7 倍的范围令人瞩目。*

关键参与者与案例研究

vLLM-Compile 的开发由来自加州大学伯克利分校和卡内基梅隆大学的研究团队领导,基于 Kwanghoon Kim 和 Woosuk Kwon 创建的原始 vLLM 项目。该项目获得了 Anyscale(Ray 背后的公司)工程师的贡献,Anyscale 提供了分布式调度基础设施。

竞争方案对比:

| 方案 | 方法 | 加速比 | 精度损失 | 模型兼容性 |
|---|---|---|---|---|
| vLLM-Compile | 编译器优化 | 2.4–2.7x | 无 | 任意 Transformer |
| TensorRT-LLM | 图优化 + 量化 | 1.5–2x (FP8) | ~0.5% | 仅 NVIDIA |
| ONNX Runtime | 图优化 | 1.2–1.5x | 无 | 跨平台 |
| CTranslate2 | 权重量化 + 融合 | 1.8–2.2x (INT8) | ~1% | 有限模型 |
| FlashAttention-3 | 注意力内核优化 | 1.3–1.6x | 无 | 仅注意力 |

*数据要点:vLLM-Compile 在不牺牲精度的前提下实现了最高加速比,但 TensorRT-LLM 在可接受量化时提供了额外增益。关键区别在于模型无关性——vLLM-Compile 开箱即用,支持任何 Hugging Face 模型。*

案例研究:Together AI

主要推理提供商 Together AI 在其超过 10,000 块 H100 的集群中部署了 vLLM-Compile。根据与 AINews 分享的内部数据,他们观察到所有模型的平均吞吐量提升了 2.3 倍,每 token 成本降低了 55%。这使得他们能够以每百万 token 0.59 美元的价格提供 Llama 3.1 70B 推理服务,低于之前的 1.35 美元,在价格上击败了 OpenAI 和 Anthropic 等竞争对手。

案例研究:Perplexity AI

Perplexity AI 将 vLLM-Compile 集成到其搜索引擎后端中,该后端每天处理数百万次查询。他们报告称,长上下文查询(32K tokens)的延迟降低了 40%,使得之前因速度过慢而无法实现的实时文档分析成为可能。

行业影响与市场动态

vLLM-Compile 的出现标志着从硬件驱动到软件定义的推理优化范式转变。这具有多重影响:

1. 硬件优势的商品化: 超大规模云厂商如 AWS,

更多来自 Hacker News

Qwen 3.6 93B双RTX 3090跑出187 Tokens/秒,但“咩咩挑战”暴露创意崩塌开源AI社区因Qwen 3.6 93B在消费级双RTX 3090 GPU上以每秒187个token运行930亿参数模型而沸腾。这一突破得益于多令牌预测(MTP)与NVLink互连技术,将本地大语言模型部署的硬件门槛从昂贵的服务器集群骤降至不Velyr AI Agent:自动修复网站转化漏洞,把流失的订单变回收AINews 发现了一款名为 Velyr 的 AI 代理,它超越了传统分析工具,能够自动识别并修复网站上的转化漏洞。Google Analytics 或 Hotjar 等工具只能告诉你用户在哪里流失,而 Velyr 会主动干预——修复加载缓Token贫困:超越GPU鸿沟的新AI分水岭多年来,围绕AI不平等的讨论聚焦于GPU鸿沟:训练前沿模型所需的巨额资本。这个硬件壁垒并未消失,但一个更隐蔽的分化正在形成——Token贫困。随着开放权重模型激增和推理成本下降,瓶颈已从训练算力转向推理Token的经济学。真正的问题不再是‘查看来源专题页Hacker News 已收录 4663 篇文章

时间归档

April 20263042 篇已发布文章

延伸阅读

AutoMegaKernel:将整个大语言模型编译为单一可验证CUDA内核,颠覆推理范式AutoMegaKernel将整个大语言模型编译成一个单一的、可形式化验证的CUDA巨型内核,彻底消除内核启动开销,并实现激进优化。这标志着AI推理从碎片化加速向整体重构的范式转变。编译器战争:重塑LLM推理经济学的隐形力量当AI行业痴迷于更大模型和更快GPU时,一场机器学习编译器的静默革命正以2-3倍的推理加速改写规则,且无需任何硬件升级。AINews深入探究内核融合、内存层次优化与自动张量布局变换如何重塑LLM部署的经济学。SSV稀疏验证:'偷懒'的LLM推理如何将成本降低3倍一篇新论文提出稀疏推测验证(SSV)技术,通过仅验证关键令牌,大幅降低大语言模型推理成本。该方法在不牺牲输出质量的前提下实现2-3倍加速,直击云端与边缘部署的核心成本痛点。Ada-MK:用有向无环图搜索取代静态内核,重塑大模型推理优化Ada-MK 将内核选择重新定义为有向无环图(DAG)搜索问题,彻底革新了大语言模型的推理优化。它不再依赖静态内核库,而是动态发现针对任何模型和硬件的最优执行路径,大幅降低延迟与内存占用。

常见问题

GitHub 热点“vLLM-Compile Rewrites LLM Inference: 3x Throughput Without New Hardware”主要讲了什么?

For the past year, the AI industry has fixated on hardware as the primary lever for inference performance—faster GPUs, specialized ASICs, and higher-bandwidth memory. vLLM-Compile…

这个 GitHub 项目在“vLLM-Compile vs TensorRT-LLM benchmark comparison”上为什么会引发关注?

vLLM-Compile is not a new inference engine but a compiler pass that sits atop existing vLLM infrastructure. Its core innovation lies in treating the LLM's computational graph as a program to be optimized, rather than a f…

从“How to deploy vLLM-Compile on AMD MI300X”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 0,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。