PoLar：让大模型动态跳过层，无需重训即可大幅削减算力消耗

Q: 围绕“how to implement PoLar on LLaMA models”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

2026年6月8日 13:01 AINews arXiv cs.LG June 2026

来源：arXiv cs.LG model compression 归档：June 2026

一种名为PoLar（Program-of-Layers）的新方法揭示，预训练大语言模型无需任何重新训练，即可根据输入动态跳过或循环使用层。对于大多数输入，更短的执行路径能带来相同甚至更高的准确率，这挑战了固定深度推理的教条，为大幅提升AI部署效率开辟了道路。

多年来，AI行业一直默认一个潜规则：每个输入到大语言模型的请求都必须经过每一层，遵循一个僵化的顺序流水线。这种一刀切的方式在简单查询上浪费了大量算力——这些查询本可以用更少的处理步骤完成。一项名为PoLar（Program-of-Layers）的新发现打破了这一假设。研究人员证明，预训练LLM的层可以像模块化积木一样被对待——对于简单输入直接跳过，对于复杂输入则多次循环——且无需任何额外训练。结果是一个动态的、针对每个输入的执行程序，将算力精确分配到需要的地方。其影响深远：PoLar揭示了自适应深度是预训练模型固有的能力，而非需要从头设计的新架构。在MMLU基准测试中，应用于7B参数模型的PoLar将平均层使用量减少了40%，同时保持了99.2%的基线准确率。在简单子集（如初等数学）上，路由器跳过了超过60%的层。这意味着，对于生产环境中的代码补全或实时翻译等场景，延迟可以降低50%以上，而质量几乎不受影响。PoLar的核心是一个轻量级路由器网络，它学习为每个输入生成一个“程序”：跳过、执行或循环现有层。由于基础模型权重完全冻结，PoLar可以立即部署到现有的LLM基础设施上，无需架构修改或重训。这项来自Meta AI和KAIST的合作成果，已作为开源项目发布在GitHub上，标志着自适应推理从理论走向实用。

技术深度解析

PoLar的核心洞察优雅而简单：并非所有输入都需要相同的计算量。像“2+2等于几？”这样的查询，不应该需要经过80层Transformer；而一个复杂的法律推理任务，则可能受益于更多的深度。挑战一直在于：如何在运行时确定给定输入需要多少深度——且无需重新训练整个模型。

PoLar的工作原理

PoLar引入了一个轻量级的路由器网络，它位于输入嵌入层。这个路由器是一个小型神经网络（通常1-2层，参数不到基础模型的1%），它输出一个程序：对模型现有层的一系列操作。该程序可以包括：
- 跳过：完全绕过某一层，将其输入直接馈送到下一层。
- 执行：正常运行该层。
- 循环：在进入下一层之前，多次执行同一层（例如2-3次迭代）。

路由器使用强化学习目标，在一个小型校准数据集（少至1000个样本）上进行训练，该目标平衡了准确率和计算成本。关键在于，基础模型权重是冻结的——路由器只学习如何组合现有层。

为何有效：层冗余假说

PoLar的成功建立在一个日益增长的证据之上：Transformer层高度冗余。来自BERTology时代的研究表明，许多层学习了相似的表示。最近对GPT类模型的研究发现，早期层处理语法和表面模式，中间层处理语义，而后期层专注于任务特定的微调。对于简单输入，后期层往往增加的价值微乎其微——甚至可能因过度拟合训练分布伪影而降低性能。

PoLar通过学习哪些层对哪些输入是冗余的来利用这一点。在MMLU基准测试中，应用于7B参数模型的PoLar实现了平均层使用量减少40%，同时保持了99.2%的基线准确率。在简单子集（如初等数学）上，路由器跳过了超过60%的层。

基准测试表现

| 模型 | 基线准确率 | PoLar准确率 | 平均使用层数 | 节省算力 |
|---|---|---|---|---|
| LLaMA-2-7B | 45.3% (MMLU) | 45.1% | 18/32 | 44% |
| LLaMA-2-13B | 54.8% (MMLU) | 54.6% | 22/40 | 45% |
| Mistral-7B | 62.5% (MMLU) | 62.3% | 16/32 | 50% |
| CodeLlama-7B | 31.2% (HumanEval) | 31.0% | 14/32 | 56% |

数据要点： PoLar持续节省40-56%的算力，准确率下降不到0.3%。在代码任务上节省最大，因为许多输入在语法上很简单。这表明，生产环境中的代码补全系统可以显著降低延迟。

开源实现

PoLar的参考实现已在GitHub上以仓库polar-llm/polar-inference发布（目前约1200星）。该仓库提供了一个基于PyTorch的路由器训练脚本，兼容Hugging Face Transformers。它开箱即支持LLaMA、Mistral和CodeLlama架构。路由器本身是一个简单的MLP，具有2个隐藏层，每层256个单元，通过策略梯度训练。在单个A100上训练7B模型只需不到2小时。

关键参与者与案例研究

PoLar来自Meta AI和KAIST研究人员之间的合作，由Jaeho Lee博士领导，他之前曾研究过BERT的早期退出架构。该团队以预印本形式发表了他们的发现，并同时发布了polar-inference仓库——这一举动表明他们意图推动采用，而非将想法专利化。

竞争方法

PoLar并非自适应推理的首次尝试，但它是第一个在预训练、冻结模型上工作且无需架构修改的方法。以下是其对比：

| 方法 | 需要重训 | 架构变更 | 算力节省 | 准确率影响 |
|---|---|---|---|---|
| PoLar | 否 | 否（外部路由器） | 40-56% | <0.3%下降 |
| 早期退出 (DeeBERT) | 是 | 是（退出分支） | 30-50% | 1-5%下降 |
| 条件计算 (MoE) | 是 | 是（稀疏层） | 50-70% | 0-2%下降 |
| LayerDrop | 是 | 是（随机深度） | 20-30% | 0-1%下降 |
| 推测解码 | 否 | 否 | 20-40%（仅解码） | 完全相同 |

数据要点： PoLar的关键优势是零架构变更和零基础模型重训。这使得它可以立即部署到现有的LLM基础设施上。然而，其节省量低于基于MoE的方法，后者需要从头训练。

案例研究：大规模实时翻译

一个为消息平台提供实时翻译服务的大语言模型（由PoLar团队模拟），在使用PoLar后，p95延迟从420ms降至190ms，而BLEU分数保持在基线0.3分以内。路由器学会了跳过大多数短小、常见短语的层（例如“你好，最近怎么样？”），而对习语或复杂句子则使用完整深度。

时间归档

常见问题

这次模型发布“PoLar Lets LLMs Skip Layers Dynamically, Slashing Compute Without Retraining”的核心内容是什么？

For years, the AI industry has operated under a silent assumption: every input to a large language model must traverse every single layer in a rigid, sequential pipeline. This one-…

从“PoLar vs early exit architectures comparison”看，这个模型发布为什么重要？

PoLar’s core insight is elegantly simple: not all inputs require the same amount of computation. A query like "What is 2+2?" should not need to pass through 80 Transformer layers, while a complex legal reasoning task mig…

围绕“how to implement PoLar on LLaMA models”，这次模型更新对开发者和企业有什么影响？