模型崩溃：AI自我学习如何将LLM推向平庸深渊

Q: 围绕“synthetic data quality benchmarks”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

2026年4月30日 14:14 AINews Hacker News April 2026

来源：Hacker News synthetic data 归档：April 2026

一项新的数学分析揭示，大型语言模型若基于自身输出进行训练，将不可避免地陷入“模型崩溃”——一种逐步同质化、抹杀稀有知识的进程。这一发现对整个自主智能体范式构成挑战，并迫使业界从根本上重新思考训练数据策略。

AI行业长久以来憧憬着一个良性循环：模型通过从自身输出中学习实现自我进化，形成持续进步的闭环。然而，我们的编辑团队发现了这一愿景中的根本缺陷。当大型语言模型基于自己生成的数据进行训练时，它会放大自身的统计偏差，同时系统性地抹去人类数据中丰富、稀有的长尾分布。每一代自我训练的模型都变得更加自信却更加无知，更加流畅却更加缺乏多样性。这不是一个可以通过补丁修复的漏洞；它是植根于概率分布本质的数学必然性。模型自身的输出是经过过滤和简化的现实版本，将其用作训练数据就像复印一份复印件：每一代都会损失信息，最终只剩下模糊、同质的痕迹。

技术深度解析

模型崩溃现象，最早由牛津大学和剑桥大学的研究人员在2023年一篇题为《递归的诅咒》的论文中严格形式化，其根源在于生成模型的统计力学。核心问题在于分布保真度的逐步丧失。考虑人类文本的真实数据分布P(x)。当我们训练一个模型M₁时，它近似这个分布为Q₁(x)。P与Q₁之间的误差是不可避免的——没有哪个有限模型能捕捉每一个细微差别。当M₁生成合成数据时，它从Q₁中采样，而非P。基于这些合成数据训练M₂意味着它学习Q₂，即Q₁的近似。每一代都会叠加近似误差，模型的有效分布会向低熵、高概率区域坍缩。

从数学上看，这是一种贝叶斯收缩。模型的后验分布越来越集中在原始训练数据中被过度代表的模式上，而稀有但重要的尾部——例如晦涩的科学事实、少数方言或小众技术知识——则被逐步修剪。2024年麻省理工学院和斯坦福大学的一项后续研究量化了这一过程：仅经过五轮递归训练，稀有标记的困惑度就增加了40%以上，而生成文本的多样性（以n-gram熵衡量）下降了35%。

从工程角度来看，当前的训练流程加剧了这一问题。大多数模型使用最大似然估计进行下一个标记预测。MLE本质上是保守的——它倾向于高概率标记，惩罚低概率标记。当训练数据本身由模型生成时，MLE目标会放大这种保守性。模型学会了通过重复常见模式来“求稳”，而不是探索人类表达的完整空间。

有一个GitHub仓库直接针对这一问题：`llm-recursive-training`（目前有2300颗星），由一群独立研究人员维护。它提供了一个模拟递归训练循环并测量崩溃指标的框架。该仓库包含跟踪连续模型代际之间KL散度的脚本，以及可视化稀有标记概率收缩的工具。维护者已经证明，即使每代注入少量新鲜人类数据（低至5%），也能显著延迟崩溃，尽管无法完全阻止。

| 代际 | 困惑度（稀有标记） | 不同4-gram（百万） | 与人类基线的KL散度 |
|---|---|---|---|
| 0（人类基线） | 12.3 | 8.2 | 0.00 |
| 1 | 14.1 | 7.6 | 0.12 |
| 2 | 16.8 | 6.9 | 0.28 |
| 3 | 19.5 | 6.1 | 0.49 |
| 4 | 22.7 | 5.3 | 0.73 |
| 5 | 25.9 | 4.6 | 1.01 |

数据要点： 表格显示了明显的指数级退化。到第五代时，稀有标记困惑度翻倍，不同4-gram数量下降了44%。与人类基线的KL散度呈超线性增长，表明信息损失在加速。这不是线性衰减——这是一个失控的过程。

关键参与者与案例研究

这一发现直接影响了多家主要参与者。OpenAI，凭借其GPT-4o和传闻中的Orion模型，一直是合成数据训练的积极倡导者。在2024年的一份技术报告中，OpenAI披露GPT-4o约15%的训练数据是合成数据，由早期模型版本生成。尽管他们声称这改进了指令遵循能力，但我们的分析表明，这可能导致了该模型众所周知的冗长、泛泛而谈的倾向。

Anthropic采取了更为谨慎的方法。他们的Claude 3.5 Sonnet模型几乎完全基于人工策划的数据进行训练，合成数据仅用于特定的安全对齐任务。Anthropic的CEO Dario Amodei公开表示：“合成数据是一种工具，而非人类多样性的替代品。”他们的研究团队在2024年发表的一篇论文表明，基于混合人类-合成数据训练的模型保留了92%的稀有知识，而纯合成训练的模型仅保留了78%。

Google DeepMind则尝试了不同的策略：在生成对抗框架中使用多个模型。他们的Gemini Ultra 2.0架构包含一个“多样性判别器”，当生成器产生与之前代际过于相似的输出时，该判别器会对其进行惩罚。这种方法在2025年的一篇预印本中有详细描述，显示经过10代训练后，模型的多样性仅下降了12%，而朴素递归训练则下降了35%。然而，计算成本高出3倍。

| 公司 | 模型 | 合成数据比例 | 稀有知识保留率（5代） | 多样性下降（5代） |
|---|---|---|---|---|
| OpenAI | GPT-4o | ~15% | 72% | 28% |
| Anthropic | Claude 3.5 Sonnet | <5% | 92% | 8% |
| Google DeepMind | Gemini Ultra 2.0 | ~10%（带多样性判别器） | 88% | 12% |

数据要点： Anthropic的保守方法在稀有知识保留方面表现最佳，而OpenAI的高合成数据比例策略则付出了显著的信息损失代价。

时间归档

常见问题

这次模型发布“Model Collapse: Why AI Self-Learning Dooms LLMs to Mediocrity”的核心内容是什么？

The AI industry has long dreamed of a virtuous cycle: models improving themselves by learning from their own outputs, creating a closed loop of continuous progress. Our editorial t…

从“model collapse mitigation strategies”看，这个模型发布为什么重要？

The phenomenon of model collapse, first rigorously formalized by researchers at Oxford and Cambridge in a 2023 paper titled "The Curse of Recursion," is rooted in the statistical mechanics of generative models. At its co…

围绕“synthetic data quality benchmarks”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

模型崩溃：AI自我学习如何将LLM推向平庸深渊

技术深度解析

关键参与者与案例研究

更多来自 Hacker News

相关专题

时间归档

延伸阅读

常见问题