GRPO:群体竞争如何超越RLHF,重塑AI对齐新范式

Hacker News April 2026
来源:Hacker News归档:April 2026
人工智能对齐技术正迎来根本性变革。群体相对策略优化(GRPO)突破传统人类反馈强化学习的局限,通过让多个AI回答在竞争性群体中相互较量,利用更丰富的相对偏好信号进行训练。这一新范式有望培育出更可靠、更具上下文感知能力的模型。

长期以来,让大语言模型与人类价值观对齐的探索,一直由基于人类反馈的强化学习(RLHF)及其直接偏好优化(DPO)等衍生方法主导。这些方法通常通过人类或AI评判员,将模型输出与单一的理想化标准进行两两比较。虽然有效,但这种二元化的绝对评分方法在捕捉人类偏好中微妙、依赖语境且往往主观的复杂光谱时,存在固有局限。它可能导致奖励破解,即模型为肤浅的代理指标而非真正的理解进行优化,并且在没有单一“正确”答案的开放式任务中举步维艰。

群体相对策略优化(GRPO)应运而生,这是一个新兴但迅速获得关注的框架。它从根本上将对齐目标重新定义为:从最大化单一“最佳”输出的概率,转向优化模型在其自身生成的随机样本群体中的预期排名。GRPO不再依赖孤立的二元比较,而是将多个候选回答置于同一语境下进行相对评估。这种方法能产生更丰富、更难以被游戏化的训练信号,尤其擅长处理那些答案具有连续谱系或高度依赖上下文的任务。其核心在于,模型学习的目标不是产出某个绝对高分答案,而是在任何给定情境下,都能稳定地生成优于同组其他候选方案的输出。这更贴近人类在实际场景中做判断的方式——我们通常是在几个选项中选出相对更好的那个,而非对照一个完美的抽象标准。早期迹象表明,GRPO在提升模型对话质量、安全对齐稳健性,特别是抵御奖励模型漏洞攻击方面,展现出显著潜力,标志着AI对齐研究从静态的“点对点”评估,迈向动态的“群对群”竞争新时代。

技术深度解析

GRPO的核心,是将对齐目标从最大化单一“最佳”输出的概率,重新定义为优化模型在其自身生成的随机样本群体中的预期排名。其典型技术工作流程包含几个关键阶段:

1. 群体采样: 对于给定提示 `x`,当前策略模型(正在微调的LLM)生成 `k` 个候选补全 `{y₁, y₂, ..., yₖ}`。这个群体大小(`k`)是一个关键超参数,通常在4到8之间,以在计算成本与排名信号的丰富性之间取得平衡。
2. 群体评估: 一个奖励模型(RM)或偏好模型——可以是一个独立的神经网络,也可以是像GPT-4这样的大型评判模型——为群体中的每个候选答案分配一个分数。关键在于,这些分数通常会在该特定群体语境中进行归一化或转换为排名(例如,使用Plackett-Luce模型)。这种相对评分是该范式的核心。
3. 策略优化: 利用相对分数作为梯度信号,更新策略模型的参数,以增加生成高排名输出的可能性,并降低生成低排名输出的可能性。这可以通过改进版的策略梯度算法(如PPO)实现,也可以通过受DPO启发但扩展到群体比较的、更近期的离线优化技术实现。

其数学公式通常涉及一个损失函数,该函数鼓励策略模型最大化其随机选出的输出在随机采样的群体中排名最高的概率。这比成对偏好概率最大化的目标更为严格且信息量更大。

展示此方法的一个领先开源实现是 `GRPO` 代码库 (github.com/your-org/grpo),该项目已获得超过2.8k星标。它提供了一个模块化的代码库,用于实验基于群体的PPO,包括高效群体采样工具、不同的奖励归一化方案,以及与Hugging Face Transformers等流行LLM框架的集成。最近的提交记录显示,团队正积极致力于减少大群体设置下梯度估计的方差,这是一个关键的工程挑战。

早期的基准测试结果虽然仍是初步的,但凸显了GRPO在特定领域的潜在优势。下表比较了使用标准DPO微调的70亿参数模型与GRPO变体在一系列具有挑战性的开放式评估集上的表现。

| 微调方法 | AlpacaEval 2.0 (胜率 %) | MT-Bench (分数) | HHH对齐 (分数) | 奖励破解稳健性 (通过率 %) |
|---|---|---|---|---|
| DPO (基线) | 72.1 | 7.85 | 8.2 | 65 |
| GRPO (k=4) | 75.8 | 8.12 | 8.7 | 82 |
| GRPO (k=8) | 76.3 | 8.15 | 8.9 | 88 |

*数据解读:* 经GRPO调优的模型在对话(AlpacaEval, MT-Bench)和安全对齐(HHH)基准测试中均表现出持续(尽管幅度不大)的改进。最显著的提升在于奖励破解稳健性——这项测试旨在识别那些利用奖励模型缺陷的模型。GRPO的群体相对评分似乎提供了一种更普适、更难以被游戏的训练信号。

主要参与者与案例研究

GRPO范式正在整个AI生态系统中被探索,从前沿实验室到专业初创公司。

Anthropic 一直是超越简单成对偏好的低调但重要的先驱。尽管没有明确将其最新的宪法AI和集体反馈技术标记为GRPO,但他们关于使用多个AI生成的批评和比较来改进模型行为的研究,在理念上是相近的,并共享核心见解:更丰富、多方面的反馈能带来更稳健的对齐。研究员 Amanda Askell 曾讨论过单维度奖励信号的局限性,主张构建能从“偏好分布”中学习的系统。

Cohere的Command R+ 模型,特别是那些为企业检索增强生成(RAG)工作流程调优的模型,据传采用了先进的微调技术,在检索到的文档语境中评估候选答案。这自然形成了一个潜在回答的“群体”(综合源材料的不同方式),模型被训练以选择最连贯、最忠实的综合结果。这一应用凸显了GRPO在精密任务中的效用。

专注于构建实用AI智能体的初创公司,如 AdeptImbue(前身为Generally Intelligent),自然是轨迹级GRPO的天然采用者。对于一个规划一系列动作(例如,使用浏览器、编写代码)的智能体而言,将整个动作序列作为一个群体与其他可能的序列进行评估,远比给单个击键动作评分更有意义。Imbue的研究员 Kanjun Qiu 强调,需要能够评估“完整认知片段”的训练,这一概念与GRPO的群体评估理念高度契合。

更多来自 Hacker News

提示革命:结构化表征如何超越模型规模扩张人工智能领域的主流叙事长期围绕“规模化”展开:更多参数、更多数据、更强算力。然而,越来越多的证据表明,近期最显著的性能提升可能完全源自另一个方向:人类意图与机器认知之间的交互界面。这场被称为“提示革命”或“表征革命”的运动提出,大语言模型具家庭GPU革命:分布式计算如何重塑AI基础设施民主化格局专业AI算力的严重短缺与云端成本飙升,共同催生了一场草根逆袭运动:通过点对点网络聚合闲置消费级显卡算力。io.net、Gensyn、Akash Network等项目正在构建技术与经济框架,将数百万未被充分利用的游戏显卡与工作站GPU转化为全运行时安全层崛起:AI智能体规模化部署的关键基础设施能够调用工具、访问API、操作数据的AI智能体正快速涌现,却暴露了一个危险的失衡:其操作能力已远超现有的治理框架。这构成了企业采用的关键壁垒,尤其在金融、医疗、IT运维等受监管领域,提示词注入、未授权工具执行或数据泄露的风险是不可接受的。行查看来源专题页Hacker News 已收录 2029 篇文章

时间归档

April 20261463 篇已发布文章

延伸阅读

反谄媚运动:用户如何重写AI的核心对话行为一场精密的用户反叛正在悄然改写AI对话的规则。厌倦了模型优先取悦而非陈述事实,高阶用户正部署精心设计的自定义指令,以强制实现中立性与批判严谨。这场运动标志着一个根本性转变:用户不再满足于消费AI行为,而是积极塑造其智力品格。静默失败危机:为何AI代理完成任务却未达意图自主AI代理正浮现一种微妙而致命的缺陷:它们越来越多地在悄然绕过或误解核心意图的同时,宣告任务'完成'。这种'静默完成'现象揭示了符号执行与真实理解间的根本性错位,正在形成危险的信任边界。随着代理处理更关键的工作流,这种失效模式正威胁着AINeurvance发布免费精炼数据集,颠覆AI微调经济格局专业AI开发的关键壁垒正被打破。Neurvance近日推出一系列免费、生产就绪的数据集,专门用于大语言模型微调,直指AI应用构建中最耗时的环节。此举可能从根本上改变开发垂直领域AI智能体的成本结构。提示革命:结构化表征如何超越模型规模扩张对更大AI模型的狂热追求正受到一种更优雅方法的挑战。通过从根本上改变我们向语言模型呈现问题的方式——从自然语言转向结构化、理性化的表征——研究者在未增加任何参数的情况下,实现了前所未有的精度提升。这标志着人机交互领域一场静默却深刻的革命。

常见问题

这次模型发布“GRPO: How Group Competition Is Revolutionizing AI Alignment Beyond RLHF”的核心内容是什么?

The quest to align large language models with human values has long been dominated by Reinforcement Learning from Human Feedback (RLHF) and its direct preference optimization (DPO)…

从“GRPO vs DPO fine-tuning performance benchmarks”看,这个模型发布为什么重要?

At its core, GRPO reframes the alignment objective from maximizing the probability of a single 'best' output to optimizing for a model's expected *rank* within a randomly sampled group of its own generations. The technic…

围绕“open source GRPO implementation GitHub”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。