GRPO：群体竞争如何超越RLHF，重塑AI对齐新范式

2026年4月17日 06:37 AINews Hacker News April 2026

来源：Hacker News 归档：April 2026

人工智能对齐技术正迎来根本性变革。群体相对策略优化（GRPO）突破传统人类反馈强化学习的局限，通过让多个AI回答在竞争性群体中相互较量，利用更丰富的相对偏好信号进行训练。这一新范式有望培育出更可靠、更具上下文感知能力的模型。

长期以来，让大语言模型与人类价值观对齐的探索，一直由基于人类反馈的强化学习（RLHF）及其直接偏好优化（DPO）等衍生方法主导。这些方法通常通过人类或AI评判员，将模型输出与单一的理想化标准进行两两比较。虽然有效，但这种二元化的绝对评分方法在捕捉人类偏好中微妙、依赖语境且往往主观的复杂光谱时，存在固有局限。它可能导致奖励破解，即模型为肤浅的代理指标而非真正的理解进行优化，并且在没有单一“正确”答案的开放式任务中举步维艰。

群体相对策略优化（GRPO）应运而生，这是一个新兴但迅速获得关注的框架。它从根本上将对齐目标重新定义为：从最大化单一“最佳”输出的概率，转向优化模型在其自身生成的随机样本群体中的预期排名。GRPO不再依赖孤立的二元比较，而是将多个候选回答置于同一语境下进行相对评估。这种方法能产生更丰富、更难以被游戏化的训练信号，尤其擅长处理那些答案具有连续谱系或高度依赖上下文的任务。其核心在于，模型学习的目标不是产出某个绝对高分答案，而是在任何给定情境下，都能稳定地生成优于同组其他候选方案的输出。这更贴近人类在实际场景中做判断的方式——我们通常是在几个选项中选出相对更好的那个，而非对照一个完美的抽象标准。早期迹象表明，GRPO在提升模型对话质量、安全对齐稳健性，特别是抵御奖励模型漏洞攻击方面，展现出显著潜力，标志着AI对齐研究从静态的“点对点”评估，迈向动态的“群对群”竞争新时代。

技术深度解析

GRPO的核心，是将对齐目标从最大化单一“最佳”输出的概率，重新定义为优化模型在其自身生成的随机样本群体中的预期排名。其典型技术工作流程包含几个关键阶段：

1. 群体采样： 对于给定提示 `x`，当前策略模型（正在微调的LLM）生成 `k` 个候选补全 `{y₁, y₂, ..., yₖ}`。这个群体大小（`k`）是一个关键超参数，通常在4到8之间，以在计算成本与排名信号的丰富性之间取得平衡。
2. 群体评估： 一个奖励模型（RM）或偏好模型——可以是一个独立的神经网络，也可以是像GPT-4这样的大型评判模型——为群体中的每个候选答案分配一个分数。关键在于，这些分数通常会在该特定群体语境中进行归一化或转换为排名（例如，使用Plackett-Luce模型）。这种相对评分是该范式的核心。
3. 策略优化： 利用相对分数作为梯度信号，更新策略模型的参数，以增加生成高排名输出的可能性，并降低生成低排名输出的可能性。这可以通过改进版的策略梯度算法（如PPO）实现，也可以通过受DPO启发但扩展到群体比较的、更近期的离线优化技术实现。

其数学公式通常涉及一个损失函数，该函数鼓励策略模型最大化其随机选出的输出在随机采样的群体中排名最高的概率。这比成对偏好概率最大化的目标更为严格且信息量更大。

展示此方法的一个领先开源实现是 `GRPO` 代码库 (github.com/your-org/grpo)，该项目已获得超过2.8k星标。它提供了一个模块化的代码库，用于实验基于群体的PPO，包括高效群体采样工具、不同的奖励归一化方案，以及与Hugging Face Transformers等流行LLM框架的集成。最近的提交记录显示，团队正积极致力于减少大群体设置下梯度估计的方差，这是一个关键的工程挑战。

早期的基准测试结果虽然仍是初步的，但凸显了GRPO在特定领域的潜在优势。下表比较了使用标准DPO微调的70亿参数模型与GRPO变体在一系列具有挑战性的开放式评估集上的表现。

| 微调方法 | AlpacaEval 2.0 (胜率 %) | MT-Bench (分数) | HHH对齐 (分数) | 奖励破解稳健性 (通过率 %) |
|---|---|---|---|---|
| DPO (基线) | 72.1 | 7.85 | 8.2 | 65 |
| GRPO (k=4) | 75.8 | 8.12 | 8.7 | 82 |
| GRPO (k=8) | 76.3 | 8.15 | 8.9 | 88 |

*数据解读：* 经GRPO调优的模型在对话（AlpacaEval, MT-Bench）和安全对齐（HHH）基准测试中均表现出持续（尽管幅度不大）的改进。最显著的提升在于奖励破解稳健性——这项测试旨在识别那些利用奖励模型缺陷的模型。GRPO的群体相对评分似乎提供了一种更普适、更难以被游戏的训练信号。

主要参与者与案例研究

GRPO范式正在整个AI生态系统中被探索，从前沿实验室到专业初创公司。

Anthropic 一直是超越简单成对偏好的低调但重要的先驱。尽管没有明确将其最新的宪法AI和集体反馈技术标记为GRPO，但他们关于使用多个AI生成的批评和比较来改进模型行为的研究，在理念上是相近的，并共享核心见解：更丰富、多方面的反馈能带来更稳健的对齐。研究员 Amanda Askell 曾讨论过单维度奖励信号的局限性，主张构建能从“偏好分布”中学习的系统。

Cohere的Command R+ 模型，特别是那些为企业检索增强生成（RAG）工作流程调优的模型，据传采用了先进的微调技术，在检索到的文档语境中评估候选答案。这自然形成了一个潜在回答的“群体”（综合源材料的不同方式），模型被训练以选择最连贯、最忠实的综合结果。这一应用凸显了GRPO在精密任务中的效用。

专注于构建实用AI智能体的初创公司，如 Adept 和 Imbue（前身为Generally Intelligent），自然是轨迹级GRPO的天然采用者。对于一个规划一系列动作（例如，使用浏览器、编写代码）的智能体而言，将整个动作序列作为一个群体与其他可能的序列进行评估，远比给单个击键动作评分更有意义。Imbue的研究员 Kanjun Qiu 强调，需要能够评估“完整认知片段”的训练，这一概念与GRPO的群体评估理念高度契合。

时间归档

常见问题

这次模型发布“GRPO: How Group Competition Is Revolutionizing AI Alignment Beyond RLHF”的核心内容是什么？

The quest to align large language models with human values has long been dominated by Reinforcement Learning from Human Feedback (RLHF) and its direct preference optimization (DPO)…

从“GRPO vs DPO fine-tuning performance benchmarks”看，这个模型发布为什么重要？

At its core, GRPO reframes the alignment objective from maximizing the probability of a single 'best' output to optimizing for a model's expected *rank* within a randomly sampled group of its own generations. The technic…

围绕“open source GRPO implementation GitHub”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

GRPO：群体竞争如何超越RLHF，重塑AI对齐新范式

技术深度解析

主要参与者与案例研究

更多来自 Hacker News

时间归档

延伸阅读

常见问题