微软LLMLingua:提示词压缩如何实现20倍速、更低成本的LLM推理

GitHub March 2026
⭐ 5951
来源:GitHub归档:March 2026
微软研究院发布突破性压缩框架LLMLingua,通过将输入提示词与内部KV缓存压缩高达20倍,有望大幅降低推理成本与延迟,同时保持卓越精度。这项技术可能彻底改变企业部署AI的方式。

LLMLingua代表了大型语言模型推理优化的一次范式转变,旨在解决计算成本飙升和处理冗长提示效率低下的双重挑战。该框架由微软研究院开发,并在EMNLP 2023和ACL 2024上展示。其核心是采用一个经过预训练的小型语言模型(如精简版LLaMA或GPT-2)作为“裁判”,在积极修剪冗余或信息量较低元素的同时,识别并保留语义关键标记。这一过程不仅适用于初始用户提示,还延伸至模型内部的键值(KV)缓存——这是在生成过程中存储先前标记信息的记忆机制,在长上下文场景中极易膨胀。

其重要性在于实际影响:该技术承诺将推理成本与延迟降低一个数量级,同时保持惊人的准确性。例如,在GSM8K数学推理基准测试中,使用GPT-3.5-Turbo时,LLMLingua实现了20倍压缩率(将约1500个标记的提示减少到约75个),而准确率仅从56.1%降至53.2%。对于企业而言,这意味着部署像GPT-4这样的大型模型进行复杂文档分析或客户服务时,成本可能从令人望而却步变得可以承受。微软已将其开源,这既彰显了其研究实力,也为Azure AI客户提供了应对成本控制难题的实用工具,同时可能对依赖按标记计费API商业模式的竞争对手构成挑战。

技术深度解析

LLMLingua的核心是一个复杂的、有损的压缩流水线,其设计对需要优化的底层LLM保持不可知性。该架构主要在两种模式下运行:提示词压缩和KV缓存压缩。

提示词压缩: 该系统使用一个经过预训练的小型语言模型(例如LLaMA-7B或其蒸馏版本)作为“预算控制器”。该控制器模型经过微调,用于预测提示中每个标记相对于目标任务的重要性。它并非孤立工作,而是通过迭代蒸馏过程,接受一个“教师”LLM(如GPT-4)的指导。教师模型会反馈压缩提示的哪些部分导致了性能下降,从而训练控制器保持语义保真度。压缩采用的技术包括:
1. 迭代标记级修剪: 对标记进行重要性评分,然后迭代移除低分标记,每次移除后控制器会重新评估上下文。
2. 边界感知压缩: 特别关注指令标记、问题格式和文档分隔符,以保持结构完整性。
3. 任务无关与任务特定模式: 该框架提供通用压缩模型,并可针对代码生成或法律文档分析等特定领域进行微调。

KV缓存压缩: 这是LLMLingua可能带来最具创新性收益的环节。在自回归生成过程中,LLM的KV缓存随序列长度线性增长,成为内存瓶颈。LLMLingua通过动态压缩该缓存进行干预。它会识别缓存信息效用已降低的注意力头和层(例如,非常早期标记的注意力分数已变得可忽略不计),并应用选择性修剪或量化。`llmlingua` GitHub仓库提供了可插入Transformer架构(如Hugging Face的架构)的模块,以实时拦截和管理KV缓存。

研究论文中的性能数据极具说服力。在GSM8K数学推理基准测试上,使用GPT-3.5-Turbo时,LLMLingua实现了20倍压缩率(将约1500个标记的提示减少到约75个),而准确率仅从56.1%降至53.2%。在更复杂的多文档问答任务中,它在5倍压缩下仍保持了超过90%的原始性能。

| 压缩比 | 原始准确率 (GSM8K) | 压缩后准确率 (GSM8K) | 延迟降低 |
|---|---|---|---|
| 5x | 56.1% | 55.7% | ~65% |
| 10x | 56.1% | 54.8% | ~78% |
| 20x | 56.1% | 53.2% | ~90% |
*表:LLMLingua在GSM8K基准测试上使用GPT-3.5-Turbo的性能表现。延迟降低为端到端推理的估计值。*

数据启示: 数据显示了一种极为有利的权衡:计算负载的大幅减少(与标记数量直接成正比)仅导致准确率轻微且通常可接受的下降。20倍压缩实现原始性能95%的保持是一个分水岭,证明大多数提示词包含显著冗余。

关键参与者与案例研究

微软发布LLMLingua,使其站在了推理优化这一新兴但关键子领域的前沿。然而,他们并非在真空中运作。一些关键参与者正在探索并行或互补的路径。

微软的战略定位: 通过开源LLMLingua,微软实现了多重目标。它提升了自身的研究信誉,为苦于成本控制的Azure AI客户提供了切实的工具,并可能对商业模式依赖按标记API定价的竞争对手构成潜在冲击。将此类压缩技术集成到Azure的AI服务中,可能成为一个关键的差异化优势。

竞争性方案:
1. OpenAI与Anthropic(隐性优化): 这些领先的API提供商无疑在进行内部的“黑盒”优化。Anthropic的Claude已展现出处理长上下文的能力,可能使用了分层注意力或内部压缩技术。他们的重点是在不向用户暴露机制的情况下提供效率。
2. 谷歌的研究: 谷歌DeepMind的Landmark AttentionInfini-attention等工作通过修改注意力机制本身来解决长上下文问题,允许模型以压缩形式“记住”海量上下文。与LLMLingua的事后压缩相比,这是一种更根本的架构变革。
3. 初创公司与开源项目:SambaNova(凭借其可重构数据流架构)和Together AI这样的初创公司正在优化整个推理堆栈。在开源领域,像vLLM及其PagedAttention这样的项目优化了内存管理,这与LLMLingua的标记修剪是互补的。

| 解决方案 | 方法 | 关键优势 | 主要用例 |
|---|---|---|---|
| Microsoft LLMLingua | 提示词与KV缓存修剪 | 模型无关;超高压缩比 | 通用提示词与长上下文任务优化 |
| Google Landmark/Infini-attention | 注意力机制变革 | 原生支持超长上下文 | 需要持续记忆的对话与文档分析 |
| OpenAI/Anthropic API优化 | 系统级黑盒优化 | 用户无感,体验平滑 | 其API服务的所有用例 |
| vLLM (PagedAttention) | 内存管理优化 | 高效KV缓存分页 | 高吞吐量LLM服务部署 |

更多来自 GitHub

无标题ccusage, created by developer ryoppippi, is a command-line tool designed to parse and analyze local JSONL log files gene从零到GPT:开源书籍如何手把手教你构建大语言模型由Sebastian Raschka创建的开源项目rasbt/llms-from-scratch,迅速崛起为GitHub上最受瞩目的AI教育仓库之一。它提供了一条循序渐进的、代码优先的学习路径,仅使用PyTorch,不依赖任何黑盒库,从零构pgweb:开发者真正想要的极简PostgreSQL Web客户端pgweb,一个用Go编写的开源PostgreSQL Web客户端,通过解决一个简单但持久的问题——需要一个零依赖、即开即用的数据库浏览器——悄然在GitHub上积累了超过9300颗星。与需要完整Python栈或Docker设置的pgAdm查看来源专题页GitHub 已收录 1699 篇文章

时间归档

March 20262347 篇已发布文章

延伸阅读

Claude Code Usage Analytics: Why ccsage's 14K GitHub Stars Signal a Developer Tooling ShiftA new open-source CLI tool, ccsage, is quietly solving a pain point many Claude Code users didn't realize they had: unde从零到GPT:开源书籍如何手把手教你构建大语言模型一个GitHub仓库正成为从零理解大语言模型的终极实战指南。rasbt/llms-from-scratch凭借超过92,000颗星,提供了一套完整的基于PyTorch的课程体系,教你构建类似ChatGPT的LLM,并配有详尽代码注释和一本配pgweb:开发者真正想要的极简PostgreSQL Web客户端pgweb是一个用Go编写的单二进制、跨平台PostgreSQL Web客户端,零依赖即可运行。它支持SSH隧道、只读模式、查询历史记录和自动补全,成为寻求pgAdmin轻量替代方案的开发者和DevOps团队的最爱。Age加密:一个Go库如何成为现代安全的反GPG标准Filippo Valsorda打造的age加密工具,已悄然成为Go生态系统中文件加密的事实标准。它没有配置选项,密钥短小精悍,原生支持SSH密钥,正在Tailscale和HashiCorp等公司的生产环境中取代GPG。

常见问题

GitHub 热点“Microsoft's LLMLingua: How Prompt Compression Unlocks 20x Faster, Cheaper LLM Inference”主要讲了什么?

LLMLingua represents a paradigm shift in optimizing large language model inference, addressing the twin challenges of escalating computational costs and the inefficiency of process…

这个 GitHub 项目在“How to integrate LLMLingua with OpenAI API for cost savings”上为什么会引发关注?

At its core, LLMLingua implements a sophisticated, lossy compression pipeline designed to be agnostic to the underlying LLM being optimized. The architecture operates in two primary modes: prompt compression and KV-Cache…

从“LLMLingua vs LongLLMLingua performance comparison”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 5951,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。