模型崩溃:AI自我学习如何将LLM推向平庸深渊

Hacker News April 2026
来源:Hacker Newssynthetic data归档:April 2026
一项新的数学分析揭示,大型语言模型若基于自身输出进行训练,将不可避免地陷入“模型崩溃”——一种逐步同质化、抹杀稀有知识的进程。这一发现对整个自主智能体范式构成挑战,并迫使业界从根本上重新思考训练数据策略。

AI行业长久以来憧憬着一个良性循环:模型通过从自身输出中学习实现自我进化,形成持续进步的闭环。然而,我们的编辑团队发现了这一愿景中的根本缺陷。当大型语言模型基于自己生成的数据进行训练时,它会放大自身的统计偏差,同时系统性地抹去人类数据中丰富、稀有的长尾分布。每一代自我训练的模型都变得更加自信却更加无知,更加流畅却更加缺乏多样性。这不是一个可以通过补丁修复的漏洞;它是植根于概率分布本质的数学必然性。模型自身的输出是经过过滤和简化的现实版本,将其用作训练数据就像复印一份复印件:每一代都会损失信息,最终只剩下模糊、同质的痕迹。

技术深度解析

模型崩溃现象,最早由牛津大学和剑桥大学的研究人员在2023年一篇题为《递归的诅咒》的论文中严格形式化,其根源在于生成模型的统计力学。核心问题在于分布保真度的逐步丧失。考虑人类文本的真实数据分布P(x)。当我们训练一个模型M₁时,它近似这个分布为Q₁(x)。P与Q₁之间的误差是不可避免的——没有哪个有限模型能捕捉每一个细微差别。当M₁生成合成数据时,它从Q₁中采样,而非P。基于这些合成数据训练M₂意味着它学习Q₂,即Q₁的近似。每一代都会叠加近似误差,模型的有效分布会向低熵、高概率区域坍缩。

从数学上看,这是一种贝叶斯收缩。模型的后验分布越来越集中在原始训练数据中被过度代表的模式上,而稀有但重要的尾部——例如晦涩的科学事实、少数方言或小众技术知识——则被逐步修剪。2024年麻省理工学院和斯坦福大学的一项后续研究量化了这一过程:仅经过五轮递归训练,稀有标记的困惑度就增加了40%以上,而生成文本的多样性(以n-gram熵衡量)下降了35%。

从工程角度来看,当前的训练流程加剧了这一问题。大多数模型使用最大似然估计进行下一个标记预测。MLE本质上是保守的——它倾向于高概率标记,惩罚低概率标记。当训练数据本身由模型生成时,MLE目标会放大这种保守性。模型学会了通过重复常见模式来“求稳”,而不是探索人类表达的完整空间。

有一个GitHub仓库直接针对这一问题:`llm-recursive-training`(目前有2300颗星),由一群独立研究人员维护。它提供了一个模拟递归训练循环并测量崩溃指标的框架。该仓库包含跟踪连续模型代际之间KL散度的脚本,以及可视化稀有标记概率收缩的工具。维护者已经证明,即使每代注入少量新鲜人类数据(低至5%),也能显著延迟崩溃,尽管无法完全阻止。

| 代际 | 困惑度(稀有标记) | 不同4-gram(百万) | 与人类基线的KL散度 |
|---|---|---|---|
| 0(人类基线) | 12.3 | 8.2 | 0.00 |
| 1 | 14.1 | 7.6 | 0.12 |
| 2 | 16.8 | 6.9 | 0.28 |
| 3 | 19.5 | 6.1 | 0.49 |
| 4 | 22.7 | 5.3 | 0.73 |
| 5 | 25.9 | 4.6 | 1.01 |

数据要点: 表格显示了明显的指数级退化。到第五代时,稀有标记困惑度翻倍,不同4-gram数量下降了44%。与人类基线的KL散度呈超线性增长,表明信息损失在加速。这不是线性衰减——这是一个失控的过程。

关键参与者与案例研究

这一发现直接影响了多家主要参与者。OpenAI,凭借其GPT-4o和传闻中的Orion模型,一直是合成数据训练的积极倡导者。在2024年的一份技术报告中,OpenAI披露GPT-4o约15%的训练数据是合成数据,由早期模型版本生成。尽管他们声称这改进了指令遵循能力,但我们的分析表明,这可能导致了该模型众所周知的冗长、泛泛而谈的倾向。

Anthropic采取了更为谨慎的方法。他们的Claude 3.5 Sonnet模型几乎完全基于人工策划的数据进行训练,合成数据仅用于特定的安全对齐任务。Anthropic的CEO Dario Amodei公开表示:“合成数据是一种工具,而非人类多样性的替代品。”他们的研究团队在2024年发表的一篇论文表明,基于混合人类-合成数据训练的模型保留了92%的稀有知识,而纯合成训练的模型仅保留了78%。

Google DeepMind则尝试了不同的策略:在生成对抗框架中使用多个模型。他们的Gemini Ultra 2.0架构包含一个“多样性判别器”,当生成器产生与之前代际过于相似的输出时,该判别器会对其进行惩罚。这种方法在2025年的一篇预印本中有详细描述,显示经过10代训练后,模型的多样性仅下降了12%,而朴素递归训练则下降了35%。然而,计算成本高出3倍。

| 公司 | 模型 | 合成数据比例 | 稀有知识保留率(5代) | 多样性下降(5代) |
|---|---|---|---|---|
| OpenAI | GPT-4o | ~15% | 72% | 28% |
| Anthropic | Claude 3.5 Sonnet | <5% | 92% | 8% |
| Google DeepMind | Gemini Ultra 2.0 | ~10%(带多样性判别器) | 88% | 12% |

数据要点: Anthropic的保守方法在稀有知识保留方面表现最佳,而OpenAI的高合成数据比例策略则付出了显著的信息损失代价。

更多来自 Hacker News

Mozaik:终结AI Agent阻塞难题的TypeScript框架AINews独家发现Mozaik——一个专为构建非阻塞AI Agent而设计的新型开源TypeScript框架。传统AI Agent框架——从简单的提示链库到更复杂的编排工具——都将大语言模型调用视为同步阻塞操作。Agent必须暂停所有执行私有LLM vs ChatGPT:重塑企业AI的战略对决企业AI格局正从“唯ChatGPT”时代迈向精细化的多模型战略。ChatGPT凭借无与伦比的易用性和零部署摩擦,在邮件起草、头脑风暴等通用任务中占据优势,但其对共享基础设施的依赖引发了数据主权、合规监管和领域准确性的严重担忧。在医疗、法律、Chrome LLM API:一场对开放网络未来的危险劫持谷歌Chrome团队已宣布计划集成内置的LLM Prompt API,使网页能够在用户设备本地调用大语言模型——且无需用户主动授权。虽然谷歌将此标榜为开发者的便利,但现实远为险恶。该API完全由谷歌独家控制,意味着每一次AI交互——即便在本查看来源专题页Hacker News 已收录 2689 篇文章

相关专题

synthetic data17 篇相关文章

时间归档

April 20262983 篇已发布文章

延伸阅读

AI的自我吞噬危机:为何模型必须停止“吃”自己的产出一个 provocative 的新概念正在搅动AI社区:“生成式AI素食主义”——即仅使用人类创作内容训练模型,严格避免合成数据。随着AI生成的文本和图像充斥互联网,这一方法引发了关于数据纯度、模型崩溃以及闭环训练可持续性的根本性辩论。大融合时代:AI推理能力触顶,行业战略全面转向数据与垂直优化人工智能领域正经历一场静默革命。大语言模型基础推理能力的爆炸式增长已显现出明显的平台期迹象,顶级模型的性能表现日趋接近。这种趋同性正迫使全行业进行深刻的战略转向,竞争优势的核心已从通用能力突破,转向数据质量与垂直领域的深度优化。令牌效率陷阱:AI对输出数量的痴迷如何毒害质量一个危险的优化循环正在腐蚀人工智能的发展。行业对最大化令牌输出效率的执着——由降本需求和基准测试博弈驱动——正催生出大量低价值、往往具有误导性的内容。这篇分析揭示了追逐错误指标如何构建出一个高效却平庸的生态系统。英国AI版权政策大转向,全球数据治理与创作者权利格局生变英国政府迫于创作者压力,撤回允许AI训练广泛使用版权作品的提案。这一标志性政策逆转不仅震撼全球AI产业,更预示着社会将如何治理驱动生成式AI革命的数据资源,迎来根本性转变。

常见问题

这次模型发布“Model Collapse: Why AI Self-Learning Dooms LLMs to Mediocrity”的核心内容是什么?

The AI industry has long dreamed of a virtuous cycle: models improving themselves by learning from their own outputs, creating a closed loop of continuous progress. Our editorial t…

从“model collapse mitigation strategies”看,这个模型发布为什么重要?

The phenomenon of model collapse, first rigorously formalized by researchers at Oxford and Cambridge in a 2023 paper titled "The Curse of Recursion," is rooted in the statistical mechanics of generative models. At its co…

围绕“synthetic data quality benchmarks”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。