模型崩溃:AI自我学习如何将LLM推向平庸深渊

Hacker News April 2026
来源:Hacker News归档:April 2026
一项新的数学分析揭示,大型语言模型若基于自身输出进行训练,将不可避免地陷入“模型崩溃”——一种逐步同质化、抹杀稀有知识的进程。这一发现对整个自主智能体范式构成挑战,并迫使业界从根本上重新思考训练数据策略。

AI行业长久以来憧憬着一个良性循环:模型通过从自身输出中学习实现自我进化,形成持续进步的闭环。然而,我们的编辑团队发现了这一愿景中的根本缺陷。当大型语言模型基于自己生成的数据进行训练时,它会放大自身的统计偏差,同时系统性地抹去人类数据中丰富、稀有的长尾分布。每一代自我训练的模型都变得更加自信却更加无知,更加流畅却更加缺乏多样性。这不是一个可以通过补丁修复的漏洞;它是植根于概率分布本质的数学必然性。模型自身的输出是经过过滤和简化的现实版本,将其用作训练数据就像复印一份复印件:每一代都会损失信息,最终只剩下模糊、同质的痕迹。

技术深度解析

模型崩溃现象,最早由牛津大学和剑桥大学的研究人员在2023年一篇题为《递归的诅咒》的论文中严格形式化,其根源在于生成模型的统计力学。核心问题在于分布保真度的逐步丧失。考虑人类文本的真实数据分布P(x)。当我们训练一个模型M₁时,它近似这个分布为Q₁(x)。P与Q₁之间的误差是不可避免的——没有哪个有限模型能捕捉每一个细微差别。当M₁生成合成数据时,它从Q₁中采样,而非P。基于这些合成数据训练M₂意味着它学习Q₂,即Q₁的近似。每一代都会叠加近似误差,模型的有效分布会向低熵、高概率区域坍缩。

从数学上看,这是一种贝叶斯收缩。模型的后验分布越来越集中在原始训练数据中被过度代表的模式上,而稀有但重要的尾部——例如晦涩的科学事实、少数方言或小众技术知识——则被逐步修剪。2024年麻省理工学院和斯坦福大学的一项后续研究量化了这一过程:仅经过五轮递归训练,稀有标记的困惑度就增加了40%以上,而生成文本的多样性(以n-gram熵衡量)下降了35%。

从工程角度来看,当前的训练流程加剧了这一问题。大多数模型使用最大似然估计进行下一个标记预测。MLE本质上是保守的——它倾向于高概率标记,惩罚低概率标记。当训练数据本身由模型生成时,MLE目标会放大这种保守性。模型学会了通过重复常见模式来“求稳”,而不是探索人类表达的完整空间。

有一个GitHub仓库直接针对这一问题:`llm-recursive-training`(目前有2300颗星),由一群独立研究人员维护。它提供了一个模拟递归训练循环并测量崩溃指标的框架。该仓库包含跟踪连续模型代际之间KL散度的脚本,以及可视化稀有标记概率收缩的工具。维护者已经证明,即使每代注入少量新鲜人类数据(低至5%),也能显著延迟崩溃,尽管无法完全阻止。

| 代际 | 困惑度(稀有标记) | 不同4-gram(百万) | 与人类基线的KL散度 |
|---|---|---|---|
| 0(人类基线) | 12.3 | 8.2 | 0.00 |
| 1 | 14.1 | 7.6 | 0.12 |
| 2 | 16.8 | 6.9 | 0.28 |
| 3 | 19.5 | 6.1 | 0.49 |
| 4 | 22.7 | 5.3 | 0.73 |
| 5 | 25.9 | 4.6 | 1.01 |

数据要点: 表格显示了明显的指数级退化。到第五代时,稀有标记困惑度翻倍,不同4-gram数量下降了44%。与人类基线的KL散度呈超线性增长,表明信息损失在加速。这不是线性衰减——这是一个失控的过程。

关键参与者与案例研究

这一发现直接影响了多家主要参与者。OpenAI,凭借其GPT-4o和传闻中的Orion模型,一直是合成数据训练的积极倡导者。在2024年的一份技术报告中,OpenAI披露GPT-4o约15%的训练数据是合成数据,由早期模型版本生成。尽管他们声称这改进了指令遵循能力,但我们的分析表明,这可能导致了该模型众所周知的冗长、泛泛而谈的倾向。

Anthropic采取了更为谨慎的方法。他们的Claude 3.5 Sonnet模型几乎完全基于人工策划的数据进行训练,合成数据仅用于特定的安全对齐任务。Anthropic的CEO Dario Amodei公开表示:“合成数据是一种工具,而非人类多样性的替代品。”他们的研究团队在2024年发表的一篇论文表明,基于混合人类-合成数据训练的模型保留了92%的稀有知识,而纯合成训练的模型仅保留了78%。

Google DeepMind则尝试了不同的策略:在生成对抗框架中使用多个模型。他们的Gemini Ultra 2.0架构包含一个“多样性判别器”,当生成器产生与之前代际过于相似的输出时,该判别器会对其进行惩罚。这种方法在2025年的一篇预印本中有详细描述,显示经过10代训练后,模型的多样性仅下降了12%,而朴素递归训练则下降了35%。然而,计算成本高出3倍。

| 公司 | 模型 | 合成数据比例 | 稀有知识保留率(5代) | 多样性下降(5代) |
|---|---|---|---|---|
| OpenAI | GPT-4o | ~15% | 72% | 28% |
| Anthropic | Claude 3.5 Sonnet | <5% | 92% | 8% |
| Google DeepMind | Gemini Ultra 2.0 | ~10%(带多样性判别器) | 88% | 12% |

数据要点: Anthropic的保守方法在稀有知识保留方面表现最佳,而OpenAI的高合成数据比例策略则付出了显著的信息损失代价。

更多来自 Hacker News

Qwen 3.6 93B双RTX 3090跑出187 Tokens/秒,但“咩咩挑战”暴露创意崩塌开源AI社区因Qwen 3.6 93B在消费级双RTX 3090 GPU上以每秒187个token运行930亿参数模型而沸腾。这一突破得益于多令牌预测(MTP)与NVLink互连技术,将本地大语言模型部署的硬件门槛从昂贵的服务器集群骤降至不Velyr AI Agent:自动修复网站转化漏洞,把流失的订单变回收AINews 发现了一款名为 Velyr 的 AI 代理,它超越了传统分析工具,能够自动识别并修复网站上的转化漏洞。Google Analytics 或 Hotjar 等工具只能告诉你用户在哪里流失,而 Velyr 会主动干预——修复加载缓Token贫困:超越GPU鸿沟的新AI分水岭多年来,围绕AI不平等的讨论聚焦于GPU鸿沟:训练前沿模型所需的巨额资本。这个硬件壁垒并未消失,但一个更隐蔽的分化正在形成——Token贫困。随着开放权重模型激增和推理成本下降,瓶颈已从训练算力转向推理Token的经济学。真正的问题不再是‘查看来源专题页Hacker News 已收录 4663 篇文章

时间归档

April 20263042 篇已发布文章

延伸阅读

数据炼金术:LLM竞争重心正从算力规模转向数据质量一份关于LLM数据基础的新技术指南揭示了一个关键转折点:模型性能的瓶颈正从算力转向数据质量。AINews深度解析,下一阶段的竞争将不再比拼集群规模,而是胜在更卓越的数据管线。AI的自我吞噬危机:为何模型必须停止“吃”自己的产出一个 provocative 的新概念正在搅动AI社区:“生成式AI素食主义”——即仅使用人类创作内容训练模型,严格避免合成数据。随着AI生成的文本和图像充斥互联网,这一方法引发了关于数据纯度、模型崩溃以及闭环训练可持续性的根本性辩论。RL.cu 重写AI训练:纯CUDA C++碾压PyTorch性能,2-5倍加速与40%显存节省开源项目RL.cu完全用CUDA C++实现大语言模型的强化学习,彻底绕过PyTorch和Hugging Face。早期基准测试显示,训练速度提升2-5倍,GPU显存消耗降低高达40%,直接挑战了行业对Python框架的路径依赖。Apery开源:为AI智能体打造“无限合成数据”的炼金术开源项目Apery直击AI智能体训练数据匮乏的痛点。通过模拟包含工具调用、决策分支与环境反馈的多步骤工作流,Apery生成结构化合成数据,有望开启智能体微调的数据丰裕时代。

常见问题

这次模型发布“Model Collapse: Why AI Self-Learning Dooms LLMs to Mediocrity”的核心内容是什么?

The AI industry has long dreamed of a virtuous cycle: models improving themselves by learning from their own outputs, creating a closed loop of continuous progress. Our editorial t…

从“model collapse mitigation strategies”看,这个模型发布为什么重要?

The phenomenon of model collapse, first rigorously formalized by researchers at Oxford and Cambridge in a 2023 paper titled "The Curse of Recursion," is rooted in the statistical mechanics of generative models. At its co…

围绕“synthetic data quality benchmarks”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。