提示调优:悄然重塑AI效率的微型技术

GitHub June 2026
⭐ 701
来源:GitHublarge language models归档:June 2026
Google Research 于2021年提出的提示调优(Prompt Tuning)证明,向冻结的语言模型添加一组可学习的“软提示”令牌,即可媲美全参数微调的性能。这项技术已成为参数高效微调(PEFT)的基石,让大规模模型能以极低计算成本适配特定任务。

在2021年的一篇论文中,Google Research 的研究人员提出了提示调优(Prompt Tuning),该方法冻结整个预训练语言模型,转而学习一个附加在输入前的小型连续“软提示”。与需要手动试错的离散提示工程不同,软提示通过反向传播进行学习。关键发现是:对于拥有数十亿参数的模型,仅调整总参数的0.1%到1%(即软提示),就能在许多下游任务上达到与全参数微调相当的性能。这一发现成为参数高效微调(PEFT)的分水岭时刻。它表明,大型模型的绝大部分知识已编码在其权重中,只需一个微小的方向性引导即可实现专业化。该技术直接启发了后续一系列PEFT方法,并深刻影响了整个AI领域的效率优化方向。

技术深度解析

提示调优在概念上看似简单,但其影响深远。核心架构如下:一个预训练的Transformer模型(如T5、GPT-3)被完全冻结。一个名为“软提示”的小型可学习参数矩阵被初始化,并附加在输入嵌入序列之前。对于嵌入维度为`d`、提示长度为`l`的模型,软提示是一个形状为`(l, d)`的张量。在训练过程中,只有这`l * d`个参数通过梯度下降更新,而整个Transformer主干保持不变。

逐步工作原理:
1. 初始化: 软提示可以随机初始化,也可以从现有词汇令牌的嵌入(例如“start”)或模型自身的嵌入矩阵中初始化。论文发现,从相关令牌(如分类任务中的“classify”)的嵌入初始化,能带来适度但一致的性能提升。
2. 前向传播: 输入文本按常规进行分词和嵌入。软提示嵌入被拼接在输入嵌入序列的开头。组合后的序列被送入冻结的Transformer。
3. 训练: 在输出端计算损失(例如分类任务中的交叉熵),梯度仅反向传播到软提示参数。模型权重从不更新。
4. 推理: 学习到的软提示被保存为一个小文件(对于100个令牌的提示,通常只有几兆字节)。推理时,它被加载并附加到每个输入前。

为何有效: 作者假设,大型预训练模型学习了一个高维表示空间,其中不同任务对应不同的“方向”或“区域”。全参数微调会将整个模型移入任务特定区域,但这是一种过度行为,因为模型已经掌握了语言结构。软提示充当一个学习到的“上下文”,引导冻结模型的注意力头转向任务相关的子空间。这类似于人类专家只需获得一组非常具体的指令就能执行新任务,而无需重新训练整个大脑。

基准性能: 原始论文在T5模型系列(Base、Large、XL、XXL)上对SuperGLUE基准进行了评估。结果令人瞩目:

| 模型大小 | 方法 | SuperGLUE得分 | 可训练参数 |
|---|---|---|---|
| T5-XXL (11B) | 全参数微调 | 89.0 | 11B (100%) |
| T5-XXL (11B) | 提示调优 (100令牌) | 88.9 | 0.01% (≈1.1M) |
| T5-Large (770M) | 全参数微调 | 85.0 | 770M (100%) |
| T5-Large (770M) | 提示调优 (100令牌) | 83.5 | 0.05% (≈385K) |
| T5-Base (220M) | 全参数微调 | 81.5 | 220M (100%) |
| T5-Base (220M) | 提示调优 (100令牌) | 77.0 | 0.2% (≈440K) |

数据要点: 对于最大的模型(T5-XXL,110亿参数),提示调优在仅训练0.01%参数的情况下,达到了全参数微调性能的99.9%。这一差距随模型规模扩大而缩小,证实了更大模型因已包含更多通用知识而从提示调优中获益更多的假设。

与其他PEFT方法的比较:
| 方法 | 可训练参数 | 性能(vs全参数微调) | 关键机制 |
|---|---|---|---|
| 提示调优 | 0.01% - 0.1% | ≈99% | 可学习的输入嵌入 |
| 前缀调优 | 0.1% - 1% | ≈99% | 每层可学习的隐藏状态 |
| LoRA | 0.1% - 1% | ≈99.5% | 注意力权重的低秩更新 |
| 适配器 | 1% - 5% | ≈99% | 每个块中插入的小型瓶颈层 |

数据要点: 提示调优是主要PEFT方法中参数效率最高的,但对于非常复杂的任务,其表达能力可能略逊于LoRA或前缀调优。它的简单性(无需修改模型架构)使其成为最容易部署的方法。

相关开源实现: 官方GitHub仓库`google-research/prompt-tuning`提供了一个基于T5代码库的干净实现。该仓库已获得超过700颗星,并仍是研究人员的参考。它包括在SuperGLUE上进行训练和评估的脚本,以及针对多个任务的预训练软提示。对于实践者,代码展示了如何在JAX/Flax中实现该技术,不过该概念已被移植到PyTorch,例如Hugging Face的PEFT库。

关键参与者与案例研究

Google Research(原始作者): Brian Lester、Rami Al-Rfou和Noah Constant撰写了论文《规模的力量:参数高效提示调优》。他们的关键见解是,提示调优的有效性随模型规模扩大而提升——这一发现直接影响了整个PEFT领域的发展方向。Google团队已将提示调优集成到内部产品的多任务服务中,其中单个T5-XXL模型可以通过不同的软提示动态配置,以处理数十个任务,而无需为每个任务维护单独的模型副本。

更多来自 GitHub

Envoy Ratelimit:分布式流量控制的无名英雄envoyproxy/ratelimit 项目并非又一个普通的速率限制器;它是一个专为现代微服务中最棘手问题之一而构建的分布式服务:在成百上千个服务实例之间强制执行一致、全局的速率限制。该服务采用 Go 语言编写,通过 gRPC 通信,与云OpenSquilla重新定义AI智能体经济学:Token效率成为智能新标尺OpenSquilla从相对默默无闻的状态一跃成为AI智能体领域最受讨论的开源项目之一,单日内在GitHub上收获超过4100颗星。该框架的核心论点是:AI行业一直在衡量错误的指标。当大多数基准测试聚焦于原始性能——MMLU上的准确率、Hu58MB Chrome 如何塞进 AWS Lambda:Brotli 压缩层的技术革命shelfio/chrome-aws-lambda-layer 项目解决了 AWS Lambda 的一个根本限制:250MB 的部署包大小限制(包括层)。标准 Chrome 构建超过 150MB,使其不切实际。该解决方案预编译了一个精简版的查看来源专题页GitHub 已收录 2667 篇文章

相关专题

large language models175 篇相关文章

时间归档

June 20261453 篇已发布文章

延伸阅读

Pegasus:谷歌用“整句遮蔽”重写文本摘要规则谷歌研究院推出的Pegasus模型,通过在前训练阶段遮蔽整句关键句子,迫使模型从零学习抽象式摘要生成。本文独家解析其架构、基准测试成绩,以及对自然语言处理格局的战略影响。Google 的宏大视觉代码库:悄然驱动 Vision Transformer 霸主地位的引擎Google Research 在 GitHub 上的 big_vision 仓库,是 Vision Transformer (ViT)、SigLIP 和 MLP-Mixer 等里程碑式模型的官方代码库。AINews 深入剖析为何这一基础设Planet:谷歌潜在动力学模型,或将重塑基于模型的强化学习格局谷歌研究院推出的Planet模型,通过变分推断与循环神经网络从原始像素中学习紧凑的潜在状态表征,在部分可观测环境中实现样本高效的规划。该方法将模型预测控制与学习到的动力学相结合,攻克高维控制任务,为强化学习开辟了新路径。Vision Transformer:谷歌研究如何终结CNN在计算机视觉领域长达十年的统治谷歌研究院推出的Vision Transformer(ViT)彻底打破了卷积神经网络在计算机视觉领域长达十年的主导地位。通过将图像视为一系列图像块并应用纯Transformer编码器,ViT在图像分类任务上达到了业界顶尖水平——但前提是必须

常见问题

GitHub 热点“Prompt Tuning: The Tiny Technique That Quietly Reshaped AI Efficiency”主要讲了什么?

In a 2021 paper, researchers at Google Research proposed Prompt Tuning, a method that freezes the entire pre-trained language model and instead learns a small, continuous 'soft pro…

这个 GitHub 项目在“How to implement prompt tuning in PyTorch with Hugging Face PEFT”上为什么会引发关注?

Prompt Tuning is deceptively simple in concept but profound in its implications. The core architecture is as follows: a pre-trained transformer model (e.g., T5, GPT-3) is completely frozen. A small matrix of learnable pa…

从“Prompt tuning vs LoRA: which is better for small datasets”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 701,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。