技术深度解析
核心技术问题在于自回归训练目标与稳健推理目标之间的错位。在预训练和微调期间,模型通过在海量文本语料上进行下一个词元预测来优化。损失函数基于最终输出序列计算误差,将所有先前的词元——包括任何生成的推理步骤——平等地视为‘待预测文本’的一部分。目前缺乏一种机制,能够独立于最终答案,优先加权或从*推理过程本身的正确性*中学习。
以一个模型为数学问题生成思维链为例:`“如果约翰有5个苹果,给了玛丽2个……步骤1:5 - 2 = 3。步骤2:剩下3个苹果。因此,约翰有3个苹果。”` 标准训练会因模型预测出最终的“3个苹果”词元而给予奖励。它对于中间减法步骤(`5 - 2 = 3`)的正确性,即使有信号,也微乎其微。模型学到的是这个词元序列是与答案“3”相关的常见模式,但并不一定能学会底层的算术逻辑。这就是为什么模型在面对语义相同但表面形式不同的问题时仍然会失败。
先进的技术正试图弥合这一差距。由OpenAI研究人员首创并在“Let's Verify Step by Step”等项目中探索的过程监督,涉及训练一个独立的奖励模型,对推理链中的每一步进行评分,而不仅仅是结论。然后,这个奖励信号可以通过基于人类反馈的强化学习(RLHF)或基于AI反馈的强化学习(RLAIF)来微调主模型,从而鼓励不仅答案正确,而且推理路径也正确。
另一个有前景的方向是对比推理训练。在此方法中,模型会看到针对同一问题的成对推理链——一个正确,一个存在细微逻辑缺陷——并被训练去区分它们。受AlphaGo搜索算法启发的`LATS`(语言代理树搜索)等框架,允许模型模拟多条推理轨迹,评估其可行性,并从死胡同中回溯,从而为学习创建包含成功和失败推理尝试的丰富数据集。
体现这一转变的关键开源仓库是`OpenAI/grade-school-math` 及相关的 `prm800k` 数据集。该项目专注于训练评估数学推理中单个步骤的“过程奖励模型”。该数据集包含80万个步骤级的人类反馈标签,为训练模型理解*如何*思考而不仅仅是*回答什么*提供了具体资源。其受欢迎程度(超过2k星标)凸显了研究界对此问题的重视。
| 训练范式 | 主要信号 | 优势 | 劣势 |
|---|---|---|---|
| 标准自回归 | 最终词元准确性 | 可扩展性强,对广泛知识的数据效率高 | 忽略推理质量,助长“推理捷径” |
| 思维链微调 | CoT风格输出格式化 | 提升在推理基准测试上的表现 | 教授格式而非逻辑;推理可能不忠实 |
| 过程监督 | 每个推理步骤的正确性 | 鼓励忠实、可验证的推理 | 标注成本极高;需要逐步监督 |
| 对比推理训练 | 推理链的相对质量 | 比PRM样本效率更高;教授错误识别 | 依赖于对比示例的质量 |
数据要点: 上表清晰揭示了可扩展性与推理保真度之间的权衡。当前主流方法(标准自回归)可扩展但逻辑浅薄。最有希望通向可靠性的路径——过程监督——目前是资源最密集的,形成了较高的准入门槛,并凸显了对自动化或半监督方法生成步骤级反馈的需求。
关键参与者与案例研究
解决推理盲点的竞赛正在定义AI竞争的下一个阶段,其焦点已超越纯粹的规模。
OpenAI 一直是过程监督的积极倡导者。他们在PRMs和“Let's Verify Step by Step”项目上的工作,代表了将推理作为训练中一等公民的重要投入。Sam Altman曾暗示,未来模型的改进将更少来自参数数量,而更多来自“它们如何思考”。他们的GPT-4系列,尽管训练细节未完全公开,但据信融入了对推理轨迹进行强化学习的某些元素,这有助于其在复杂任务中表现出的熟练度。
Google DeepMind 凭借其在强化学习和游戏AI方面的传统来处理这个问题。他们的Gemini项目,特别是Gemini Ultra变体,强调复杂的推理能力。DeepMind的研究整合了规划与搜索算法,旨在让模型不仅能生成推理,还能评估和优化其自身的思维过程。