技术深度解析
模型崩溃现象,最早由牛津大学和剑桥大学的研究人员在2023年一篇题为《递归的诅咒》的论文中严格形式化,其根源在于生成模型的统计力学。核心问题在于分布保真度的逐步丧失。考虑人类文本的真实数据分布P(x)。当我们训练一个模型M₁时,它近似这个分布为Q₁(x)。P与Q₁之间的误差是不可避免的——没有哪个有限模型能捕捉每一个细微差别。当M₁生成合成数据时,它从Q₁中采样,而非P。基于这些合成数据训练M₂意味着它学习Q₂,即Q₁的近似。每一代都会叠加近似误差,模型的有效分布会向低熵、高概率区域坍缩。
从数学上看,这是一种贝叶斯收缩。模型的后验分布越来越集中在原始训练数据中被过度代表的模式上,而稀有但重要的尾部——例如晦涩的科学事实、少数方言或小众技术知识——则被逐步修剪。2024年麻省理工学院和斯坦福大学的一项后续研究量化了这一过程:仅经过五轮递归训练,稀有标记的困惑度就增加了40%以上,而生成文本的多样性(以n-gram熵衡量)下降了35%。
从工程角度来看,当前的训练流程加剧了这一问题。大多数模型使用最大似然估计进行下一个标记预测。MLE本质上是保守的——它倾向于高概率标记,惩罚低概率标记。当训练数据本身由模型生成时,MLE目标会放大这种保守性。模型学会了通过重复常见模式来“求稳”,而不是探索人类表达的完整空间。
有一个GitHub仓库直接针对这一问题:`llm-recursive-training`(目前有2300颗星),由一群独立研究人员维护。它提供了一个模拟递归训练循环并测量崩溃指标的框架。该仓库包含跟踪连续模型代际之间KL散度的脚本,以及可视化稀有标记概率收缩的工具。维护者已经证明,即使每代注入少量新鲜人类数据(低至5%),也能显著延迟崩溃,尽管无法完全阻止。
| 代际 | 困惑度(稀有标记) | 不同4-gram(百万) | 与人类基线的KL散度 |
|---|---|---|---|
| 0(人类基线) | 12.3 | 8.2 | 0.00 |
| 1 | 14.1 | 7.6 | 0.12 |
| 2 | 16.8 | 6.9 | 0.28 |
| 3 | 19.5 | 6.1 | 0.49 |
| 4 | 22.7 | 5.3 | 0.73 |
| 5 | 25.9 | 4.6 | 1.01 |
数据要点: 表格显示了明显的指数级退化。到第五代时,稀有标记困惑度翻倍,不同4-gram数量下降了44%。与人类基线的KL散度呈超线性增长,表明信息损失在加速。这不是线性衰减——这是一个失控的过程。
关键参与者与案例研究
这一发现直接影响了多家主要参与者。OpenAI,凭借其GPT-4o和传闻中的Orion模型,一直是合成数据训练的积极倡导者。在2024年的一份技术报告中,OpenAI披露GPT-4o约15%的训练数据是合成数据,由早期模型版本生成。尽管他们声称这改进了指令遵循能力,但我们的分析表明,这可能导致了该模型众所周知的冗长、泛泛而谈的倾向。
Anthropic采取了更为谨慎的方法。他们的Claude 3.5 Sonnet模型几乎完全基于人工策划的数据进行训练,合成数据仅用于特定的安全对齐任务。Anthropic的CEO Dario Amodei公开表示:“合成数据是一种工具,而非人类多样性的替代品。”他们的研究团队在2024年发表的一篇论文表明,基于混合人类-合成数据训练的模型保留了92%的稀有知识,而纯合成训练的模型仅保留了78%。
Google DeepMind则尝试了不同的策略:在生成对抗框架中使用多个模型。他们的Gemini Ultra 2.0架构包含一个“多样性判别器”,当生成器产生与之前代际过于相似的输出时,该判别器会对其进行惩罚。这种方法在2025年的一篇预印本中有详细描述,显示经过10代训练后,模型的多样性仅下降了12%,而朴素递归训练则下降了35%。然而,计算成本高出3倍。
| 公司 | 模型 | 合成数据比例 | 稀有知识保留率(5代) | 多样性下降(5代) |
|---|---|---|---|---|
| OpenAI | GPT-4o | ~15% | 72% | 28% |
| Anthropic | Claude 3.5 Sonnet | <5% | 92% | 8% |
| Google DeepMind | Gemini Ultra 2.0 | ~10%(带多样性判别器) | 88% | 12% |
数据要点: Anthropic的保守方法在稀有知识保留方面表现最佳,而OpenAI的高合成数据比例策略则付出了显著的信息损失代价。