PoLar:让大模型动态跳过层,无需重训即可大幅削减算力消耗

arXiv cs.LG June 2026
来源:arXiv cs.LGmodel compression归档:June 2026
一种名为PoLar(Program-of-Layers)的新方法揭示,预训练大语言模型无需任何重新训练,即可根据输入动态跳过或循环使用层。对于大多数输入,更短的执行路径能带来相同甚至更高的准确率,这挑战了固定深度推理的教条,为大幅提升AI部署效率开辟了道路。

多年来,AI行业一直默认一个潜规则:每个输入到大语言模型的请求都必须经过每一层,遵循一个僵化的顺序流水线。这种一刀切的方式在简单查询上浪费了大量算力——这些查询本可以用更少的处理步骤完成。一项名为PoLar(Program-of-Layers)的新发现打破了这一假设。研究人员证明,预训练LLM的层可以像模块化积木一样被对待——对于简单输入直接跳过,对于复杂输入则多次循环——且无需任何额外训练。结果是一个动态的、针对每个输入的执行程序,将算力精确分配到需要的地方。其影响深远:PoLar揭示了自适应深度是预训练模型固有的能力,而非需要从头设计的新架构。在MMLU基准测试中,应用于7B参数模型的PoLar将平均层使用量减少了40%,同时保持了99.2%的基线准确率。在简单子集(如初等数学)上,路由器跳过了超过60%的层。这意味着,对于生产环境中的代码补全或实时翻译等场景,延迟可以降低50%以上,而质量几乎不受影响。PoLar的核心是一个轻量级路由器网络,它学习为每个输入生成一个“程序”:跳过、执行或循环现有层。由于基础模型权重完全冻结,PoLar可以立即部署到现有的LLM基础设施上,无需架构修改或重训。这项来自Meta AI和KAIST的合作成果,已作为开源项目发布在GitHub上,标志着自适应推理从理论走向实用。

技术深度解析

PoLar的核心洞察优雅而简单:并非所有输入都需要相同的计算量。像“2+2等于几?”这样的查询,不应该需要经过80层Transformer;而一个复杂的法律推理任务,则可能受益于更多的深度。挑战一直在于:如何在运行时确定给定输入需要多少深度——且无需重新训练整个模型。

PoLar的工作原理

PoLar引入了一个轻量级的路由器网络,它位于输入嵌入层。这个路由器是一个小型神经网络(通常1-2层,参数不到基础模型的1%),它输出一个程序:对模型现有层的一系列操作。该程序可以包括:
- 跳过:完全绕过某一层,将其输入直接馈送到下一层。
- 执行:正常运行该层。
- 循环:在进入下一层之前,多次执行同一层(例如2-3次迭代)。

路由器使用强化学习目标,在一个小型校准数据集(少至1000个样本)上进行训练,该目标平衡了准确率和计算成本。关键在于,基础模型权重是冻结的——路由器只学习如何组合现有层。

为何有效:层冗余假说

PoLar的成功建立在一个日益增长的证据之上:Transformer层高度冗余。来自BERTology时代的研究表明,许多层学习了相似的表示。最近对GPT类模型的研究发现,早期层处理语法和表面模式,中间层处理语义,而后期层专注于任务特定的微调。对于简单输入,后期层往往增加的价值微乎其微——甚至可能因过度拟合训练分布伪影而降低性能。

PoLar通过学习哪些层对哪些输入是冗余的来利用这一点。在MMLU基准测试中,应用于7B参数模型的PoLar实现了平均层使用量减少40%,同时保持了99.2%的基线准确率。在简单子集(如初等数学)上,路由器跳过了超过60%的层。

基准测试表现

| 模型 | 基线准确率 | PoLar准确率 | 平均使用层数 | 节省算力 |
|---|---|---|---|---|
| LLaMA-2-7B | 45.3% (MMLU) | 45.1% | 18/32 | 44% |
| LLaMA-2-13B | 54.8% (MMLU) | 54.6% | 22/40 | 45% |
| Mistral-7B | 62.5% (MMLU) | 62.3% | 16/32 | 50% |
| CodeLlama-7B | 31.2% (HumanEval) | 31.0% | 14/32 | 56% |

数据要点: PoLar持续节省40-56%的算力,准确率下降不到0.3%。在代码任务上节省最大,因为许多输入在语法上很简单。这表明,生产环境中的代码补全系统可以显著降低延迟。

开源实现

PoLar的参考实现已在GitHub上以仓库polar-llm/polar-inference发布(目前约1200星)。该仓库提供了一个基于PyTorch的路由器训练脚本,兼容Hugging Face Transformers。它开箱即支持LLaMA、Mistral和CodeLlama架构。路由器本身是一个简单的MLP,具有2个隐藏层,每层256个单元,通过策略梯度训练。在单个A100上训练7B模型只需不到2小时。

关键参与者与案例研究

PoLar来自Meta AIKAIST研究人员之间的合作,由Jaeho Lee博士领导,他之前曾研究过BERT的早期退出架构。该团队以预印本形式发表了他们的发现,并同时发布了polar-inference仓库——这一举动表明他们意图推动采用,而非将想法专利化。

竞争方法

PoLar并非自适应推理的首次尝试,但它是第一个在预训练、冻结模型上工作且无需架构修改的方法。以下是其对比:

| 方法 | 需要重训 | 架构变更 | 算力节省 | 准确率影响 |
|---|---|---|---|---|
| PoLar | 否 | 否(外部路由器) | 40-56% | <0.3%下降 |
| 早期退出 (DeeBERT) | 是 | 是(退出分支) | 30-50% | 1-5%下降 |
| 条件计算 (MoE) | 是 | 是(稀疏层) | 50-70% | 0-2%下降 |
| LayerDrop | 是 | 是(随机深度) | 20-30% | 0-1%下降 |
| 推测解码 | 否 | 否 | 20-40%(仅解码) | 完全相同 |

数据要点: PoLar的关键优势是零架构变更和零基础模型重训。这使得它可以立即部署到现有的LLM基础设施上。然而,其节省量低于基于MoE的方法,后者需要从头训练。

案例研究:大规模实时翻译

一个为消息平台提供实时翻译服务的大语言模型(由PoLar团队模拟),在使用PoLar后,p95延迟从420ms降至190ms,而BLEU分数保持在基线0.3分以内。路由器学会了跳过大多数短小、常见短语的层(例如“你好,最近怎么样?”),而对习语或复杂句子则使用完整深度。

更多来自 arXiv cs.LG

表面精通陷阱:生成式AI如何侵蚀人类的深度学习能力一篇新研究论文揭露了长期被技术乐观主义掩盖的盲点:生成式AI的真正危险不在于它做不到什么,而在于它如何令人信服地模仿精通。该研究提出了“表面精通”这一概念——即AI输出在表面特征上匹配多年人类专业经验的成果,却缺乏背后的认知深度。这造成了一无标题The residual connection—the skip connection that adds a layer's input to its output—has been the unsung hero of every suMacArena基准测试填补macOS AI代理空白,解锁跨平台部署新纪元多年来,计算机使用代理(CUA)的评估格局一直失衡。Windows有OSWorld和WindowsAgentArena;Linux有自己的强大测试平台。而macOS——这个驱动着不成比例的创意和开发者工作站的系统——却只有macOSWorl查看来源专题页arXiv cs.LG 已收录 142 篇文章

相关专题

model compression32 篇相关文章

时间归档

June 2026645 篇已发布文章

延伸阅读

NAS与量化合体:大模型瘦身不减性能,端侧AI迎来新解法一种全新的联合优化方法将神经架构搜索(NAS)与量化感知训练融为一体,自动为每一层网络找到最优的结构骨架与数值精度。该方案在实现模型大幅瘦身的同时,避免了灾难性的性能损失,为端侧AI部署铺平了道路。表面精通陷阱:生成式AI如何侵蚀人类的深度学习能力一项里程碑式研究揭示,生成式AI产出与人类专家作品难以区分的成果,正在对深度学习构成结构性威胁。当市场奖励“看起来正确”而非“真正理解”时,知识创造与文明根基正面临一个存在主义悖论。WAV Routing: How Multi-Resolution Residuals Make Deep Transformers Learn What to RememberA new architecture called WAV introduces dynamic, content-aware residual routing for deep transformers, replacing the stMacArena基准测试填补macOS AI代理空白,解锁跨平台部署新纪元MacArena作为首个面向macOS的AI代理综合性在线基准测试平台正式上线,终结了多年来碎片化的评估格局。这一开源框架为在真实macOS工作流(从Finder文件管理到多应用协同)中训练和测试代理提供了标准化环境,加速了迈向真正跨平台A

常见问题

这次模型发布“PoLar Lets LLMs Skip Layers Dynamically, Slashing Compute Without Retraining”的核心内容是什么?

For years, the AI industry has operated under a silent assumption: every input to a large language model must traverse every single layer in a rigid, sequential pipeline. This one-…

从“PoLar vs early exit architectures comparison”看,这个模型发布为什么重要?

PoLar’s core insight is elegantly simple: not all inputs require the same amount of computation. A query like "What is 2+2?" should not need to pass through 80 Transformer layers, while a complex legal reasoning task mig…

围绕“how to implement PoLar on LLaMA models”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。