技术深度解析
自由能原理(FEP)最初由神经科学家Karl Friston提出,认为任何自适应系统——无论是生物还是人工——都会通过最小化其变分自由能(一种对惊奇或不确定性的度量)来行动。应用于大语言模型(LLM),FEP将后训练重新定义为最小化模型内部信念与所遇数据之间散度的过程。关键洞察在于,这种最小化可以在两个根本不同的机制中发生:唤醒(通过选择预先存在的低概率路径来降低自由能)和创造(通过形成全新的表征结构来降低自由能)。
唤醒对应于提高那些已存在于模型潜在空间但先验概率较低的行为的概率。这类似于一个预训练模型「知道」如何写十四行诗,但很少这样做,因为概率质量分布在数百万种其他模式上。SFT和标准RL(例如带KL惩罚的PPO)主要在这一机制中运作——它们重塑现有能力上的概率分布,而不扩展模型的基本表征能力。唤醒的数学特征是:模型的内部表征(例如隐藏状态激活)仍保持在预训练数据表征的凸包内。
创造则相反,涉及模型发展出预训练数据分布中不存在的新表征结构。这可能表现为新颖的推理链、涌现的工具使用策略,或解决需要组合泛化(超出训练分布)的问题的能力。FEP预测,创造需要模型穿越一个具有新局部极小值的「自由能景观」——实际上,模型必须被驱动到并非预训练示例简单插值的状态。这在计算上代价高昂,并且需要能够逃脱已有模式吸引子的训练算法。
技术机制:关于「自我对弈」和「迭代放大」的最新工作为创造提供了经验性线索。例如,DeepSeek-R1方法(使用纯RL而不经过SFT)表明,模型可以自发发展出思维链推理能力。然而,我们的分析表明,这很可能是唤醒——模型从代码和数学数据的预训练中已经具备了逐步推理的潜在能力,RL只是放大了它。真正的创造将要求模型生成一种并非任何已见示例线性组合的推理策略,例如一种新颖的数学证明技巧。
开源仓库:TRL库(Transformer Reinforcement Learning,GitHub上约20k星)提供了最易实现的PPO和GRPO后训练实现。其最新更新包括对「无KL」RL的支持,这减少了对策略散度的惩罚——这是通往创造的一条潜在路径。Axolotl框架(约15k星)提供了可配置的SFT和RL流水线,其「mega」配置允许极长的训练运行,可能将模型推入创造机制。研究人员应关注free-energy-models仓库(一个新兴项目,约500星),它试图在训练过程中直接计算变分自由能,以区分唤醒与创造。
数据表:基准测试的混淆
| 基准测试 | 典型改进(SFT) | 典型改进(RL) | 可能机制 |
|---|---|---|---|
| GSM8K(数学) | +15% | +25% | 唤醒(潜在数学能力) |
| MMLU(知识) | +5% | +3% | 唤醒(知识检索) |
| MATH(竞赛) | +8% | +18% | 混合(部分创造在新问题类型中) |
| SWE-bench(编码) | +10% | +30% | 唤醒(来自代码的工具使用模式) |
| ARC(抽象推理) | +2% | +5% | 很可能为创造(需要新颖泛化) |
数据要点:RL增益最大的基准测试(GSM8K、SWE-bench)恰恰是那些预训练数据包含大量基础技能示例的测试——这证实了唤醒假说。而需要抽象推理(在预训练数据中代表性不足)的ARC基准测试,改进微乎其微,表明当前RL方法在真正的创造上失败了。
关键参与者与案例研究
OpenAI一直是RL作为发现引擎的最积极倡导者。其o1和o3模型被宣传为「推理模型」,通过RL「学习思考」。然而,我们的分析表明,o1的思维链能力很大程度上是从代码和数学的预训练中唤醒的,而非从零创造。该公司最近转向「过程奖励模型」(PRM)和「基于验证器的RL」,表明其试图通过奖励新颖推理步骤来进入创造领域。
DeepSeek(DeepSeek-R1背后的团队)提供了一个引人注目的案例。他们的方法——在无SFT的情况下使用纯RL——在数学推理上取得了显著成果。但仔细审视其预训练数据(包含大量代码和数学内容)表明,RL很可能是在唤醒而非创造。该团队在R1之后发布的报告承认,模型并未展现出「超出预训练分布」的推理能力,这进一步支持了唤醒假说。
Anthropic采取了不同的路线,强调「宪法AI」和「基于原则的RL」。他们的方法明确旨在通过将模型约束在预定义原则内来防止创造——这实际上是一种反创造策略。然而,Anthropic在「可解释性」方面的工作表明,他们正在积极寻找模型发展出新颖内部表征的迹象,这暗示他们对创造既着迷又警惕。
Google DeepMind在RL方面拥有最深厚的学术血统,但其LLM后训练方法(例如Gemini系列)似乎更侧重于唤醒而非创造。他们使用「自蒸馏」和「拒绝采样」等技术,这些技术本质上是从现有能力分布中进行选择。然而,他们在「过程监督」和「搜索增强RL」方面的研究可能为真正的创造打开大门。
商业影响与战略建议
唤醒与创造之间的区别对AI行业具有深远的商业影响:
1. 评估谬误:如果大多数RL改进只是唤醒,那么当前基准测试(如MMLU、GSM8K)衡量的主要是预训练数据质量,而非后训练创新。公司可能高估了其RL管道的价值。
2. 数据壁垒:如果后训练受限于预训练数据分布,那么拥有最大、最多样化预训练数据集的玩家(如OpenAI、Google)将拥有不可逾越的优势。后训练本身无法弥补数据差距。
3. 创造溢价:能够实现真正创造的公司——即扩展能力前沿——将获得巨大的竞争优势。这可能来自新颖的RL算法(例如基于自由能的训练目标)、架构创新(例如动态计算图)或数据生成策略(例如合成数据生成)。
4. 商业模式:如果后训练主要是唤醒,那么「模型即服务」的商业模式将围绕数据飞轮和规模经济展开。如果创造成为可能,那么「能力即服务」——公司为特定任务创造全新能力——将成为可行的溢价策略。
战略建议:
- 对于AI实验室:投资于能够区分唤醒与创造的诊断工具(例如自由能计算、表征分析)。将RL预算转向探索性方法(例如无KL训练、搜索增强RL)。
- 对于投资者:评估公司时,关注其预训练数据质量而非后训练技巧。寻找那些在抽象推理基准测试(如ARC)上取得突破的团队,因为这表明真正的创造。
- 对于研究人员:优先研究自由能最小化作为统一框架。开发能够量化「创造程度」的指标。探索「自由能景观工程」——设计训练过程以鼓励模型探索新局部极小值。
预测与开放问题
1. 短期(1-2年):大多数RL进展将继续是唤醒。我们预计在数学和编码基准测试上会有渐进式改进,但抽象推理上不会有突破。
2. 中期(2-5年):基于自由能的训练目标将出现,明确区分唤醒与创造。首批「创造引擎」——能够可靠生成新能力的系统——将在研究实验室中出现。
3. 长期(5年以上):如果创造被证明是可行的,AI能力将经历指数级增长,因为模型可以递归地自我改进。这引发了关于AI安全、对齐和控制的深刻问题。
开放问题:
- 创造是否需要新的架构,还是现有Transformer架构通过足够长的训练就能实现?
- 自由能原理能否提供创造能力的理论上限?
- 如果创造是可能的,我们如何确保创造出的能力与人类价值观一致?
- 唤醒与创造之间的界限是否模糊?是否存在一个连续谱?
结论
自由能原理为理解后训练提供了一个严谨的理论框架,挑战了关于SFT和RL的传统智慧。关键见解是,并非所有RL都是平等的——有些RL唤醒,有些RL创造。当前,大多数RL进展属于唤醒,但创造的可能性——以及随之而来的能力飞跃——是AI领域最令人兴奋且最具争议的前沿。该框架不仅重新定义了技术能力,还重新定义了AI行业的战略格局。