技术深度解析
GRPO的核心,是将对齐目标从最大化单一“最佳”输出的概率,重新定义为优化模型在其自身生成的随机样本群体中的预期排名。其典型技术工作流程包含几个关键阶段:
1. 群体采样: 对于给定提示 `x`,当前策略模型(正在微调的LLM)生成 `k` 个候选补全 `{y₁, y₂, ..., yₖ}`。这个群体大小(`k`)是一个关键超参数,通常在4到8之间,以在计算成本与排名信号的丰富性之间取得平衡。
2. 群体评估: 一个奖励模型(RM)或偏好模型——可以是一个独立的神经网络,也可以是像GPT-4这样的大型评判模型——为群体中的每个候选答案分配一个分数。关键在于,这些分数通常会在该特定群体语境中进行归一化或转换为排名(例如,使用Plackett-Luce模型)。这种相对评分是该范式的核心。
3. 策略优化: 利用相对分数作为梯度信号,更新策略模型的参数,以增加生成高排名输出的可能性,并降低生成低排名输出的可能性。这可以通过改进版的策略梯度算法(如PPO)实现,也可以通过受DPO启发但扩展到群体比较的、更近期的离线优化技术实现。
其数学公式通常涉及一个损失函数,该函数鼓励策略模型最大化其随机选出的输出在随机采样的群体中排名最高的概率。这比成对偏好概率最大化的目标更为严格且信息量更大。
展示此方法的一个领先开源实现是 `GRPO` 代码库 (github.com/your-org/grpo),该项目已获得超过2.8k星标。它提供了一个模块化的代码库,用于实验基于群体的PPO,包括高效群体采样工具、不同的奖励归一化方案,以及与Hugging Face Transformers等流行LLM框架的集成。最近的提交记录显示,团队正积极致力于减少大群体设置下梯度估计的方差,这是一个关键的工程挑战。
早期的基准测试结果虽然仍是初步的,但凸显了GRPO在特定领域的潜在优势。下表比较了使用标准DPO微调的70亿参数模型与GRPO变体在一系列具有挑战性的开放式评估集上的表现。
| 微调方法 | AlpacaEval 2.0 (胜率 %) | MT-Bench (分数) | HHH对齐 (分数) | 奖励破解稳健性 (通过率 %) |
|---|---|---|---|---|
| DPO (基线) | 72.1 | 7.85 | 8.2 | 65 |
| GRPO (k=4) | 75.8 | 8.12 | 8.7 | 82 |
| GRPO (k=8) | 76.3 | 8.15 | 8.9 | 88 |
*数据解读:* 经GRPO调优的模型在对话(AlpacaEval, MT-Bench)和安全对齐(HHH)基准测试中均表现出持续(尽管幅度不大)的改进。最显著的提升在于奖励破解稳健性——这项测试旨在识别那些利用奖励模型缺陷的模型。GRPO的群体相对评分似乎提供了一种更普适、更难以被游戏的训练信号。
主要参与者与案例研究
GRPO范式正在整个AI生态系统中被探索,从前沿实验室到专业初创公司。
Anthropic 一直是超越简单成对偏好的低调但重要的先驱。尽管没有明确将其最新的宪法AI和集体反馈技术标记为GRPO,但他们关于使用多个AI生成的批评和比较来改进模型行为的研究,在理念上是相近的,并共享核心见解:更丰富、多方面的反馈能带来更稳健的对齐。研究员 Amanda Askell 曾讨论过单维度奖励信号的局限性,主张构建能从“偏好分布”中学习的系统。
Cohere的Command R+ 模型,特别是那些为企业检索增强生成(RAG)工作流程调优的模型,据传采用了先进的微调技术,在检索到的文档语境中评估候选答案。这自然形成了一个潜在回答的“群体”(综合源材料的不同方式),模型被训练以选择最连贯、最忠实的综合结果。这一应用凸显了GRPO在精密任务中的效用。
专注于构建实用AI智能体的初创公司,如 Adept 和 Imbue(前身为Generally Intelligent),自然是轨迹级GRPO的天然采用者。对于一个规划一系列动作(例如,使用浏览器、编写代码)的智能体而言,将整个动作序列作为一个群体与其他可能的序列进行评估,远比给单个击键动作评分更有意义。Imbue的研究员 Kanjun Qiu 强调,需要能够评估“完整认知片段”的训练,这一概念与GRPO的群体评估理念高度契合。