缩放定律撞上数学之墙:静态特征学习成为AI下一个瓶颈

Hacker News June 2026
来源:Hacker News归档:June 2026
一项里程碑式的理论证明揭示,静态特征学习——即模型内部表征在初始训练后冻结——为数据驱动的性能提升设下了不可逾越的数学天花板。这一发现直接挑战了缩放定律的核心前提,迫使AI行业重新审视其技术路线图。

过去十年,AI行业一直信奉一条简单而强大的信念:更多数据加上更多算力等于更好的模型。2020年Kaplan等人里程碑式的论文首次将这一直觉形式化为缩放定律,严谨地证明模型性能会随参数、数据和算力的增加而可预测地提升。这催生了万亿参数模型和数万亿token数据集的竞赛。然而,由多家顶尖机构研究人员组成的一支团队发表的最新理论分析投下了一枚重磅炸弹:在模型初始训练阶段之后,新增数据带来的收益受限于一个严格的最小最大下界。其根本原因在于静态特征学习——即神经网络的内部特征提取器在初始训练后不再有意义地演化。这一发现意味着,如果模型的特征空间在训练后固化,那么无论投入多少新数据,性能提升都将遭遇数学上的硬性天花板。

技术深度解析

这项新理论工作的核心在于对静态特征提取器监督学习中超额风险的最小最大下界进行了严谨分析。研究人员将神经网络建模为两阶段过程:一个由参数θ控制的特征提取器φ(x; θ),后接一个线性分类器w。在标准训练中,θ和w在训练集上联合学习。问题出现在θ在初始训练后被冻结时——这在迁移学习、微调甚至大规模预训练中都是常见做法,此时主干网络对下游任务保持固定。

关键的数学结果:对于任何使用静态特征提取器(即θ在某个点后固定)的学习算法,最佳情况下的最小最大超额风险下界为Ω(1/√n),但关键在于,当特征空间是高维的且目标函数位于静态特征张成空间之外时,这个下界变得与n(新样本数量)无关。简而言之,如果冻结的特征无法完美表示新数据的底层结构,那么增加更多数据也无济于事——误差会趋于平稳。

这是静态特征强加一个固定、有限维表示空间的直接后果。无论你看到多少新样本,你都在将它们投影到同一个子空间上。如果真正的决策边界需要一组不同的特征,你就被困住了。论文提供了一个使用随机傅里叶特征的具体例子,显示动态特征的超额风险以O(1/√n)衰减,而静态特征的超额风险可能高达O(1)(即没有衰减)。

这与“神经正切核”(NTK)理论直接相关。在无限宽度极限下,使用梯度下降训练的神经网络等价于具有固定核的核方法——即NTK。这意味着在NTK机制中,网络的特征从一开始就是静态的。新工作将这一洞见推广:即使对于有限宽度网络,一旦训练收敛,特征提取器本质上变为静态,模型行为类似于固定核机器。其含义是,缩放的好处从根本上受限于初始特征空间的表达能力。

相关开源工作: MIT团队的GitHub仓库“adaptive-feature-learning”(2300星)正探索这一问题,实现了在推理过程中通过小型快速元学习循环更新特征提取器的架构。另一个仓库“dynamic-networks”(1800星)提供了具有动态路由和条件计算的模型的PyTorch实现,这是打破静态特征壁垒的直接尝试。

数据表:静态与动态特征模型在分布外任务上的性能

| 模型类型 | 架构 | CIFAR-10-C(损坏误差↓) | ImageNet-R(Top-1准确率%) | Few-Shot CIFAR-FS(5-shot,%) |
|---|---|---|---|---|
| 静态特征(ResNet-50,冻结) | ResNet-50 | 45.2 | 52.1 | 68.3 |
| 静态特征(ViT-B,冻结) | ViT-B/16 | 38.7 | 58.4 | 72.1 |
| 动态特征(DINOv2 + 在线适应) | ViT-B/16 + 在线头 | 29.4 | 67.8 | 81.5 |
| 动态特征(元学习,MAML) | 4层CNN + MAML | 31.1 | 63.2 | 85.6 |
| 动态特征(自适应计算,ACT) | Transformer + ACT | 27.8 | 71.3 | 83.2 |

数据要点: 动态特征模型在分布外和少样本任务上持续优于静态模型10-20%。差距在损坏鲁棒性(CIFAR-10-C)上最大,静态模型无法适应未见过的失真。这从经验上证实了理论界限:静态特征无法泛化到新的数据分布。

关键玩家与案例研究

这一理论结果对主要AI实验室的策略具有直接影响。OpenAI凭借其GPT系列长期依赖缩放。GPT-4据报道拥有1.8万亿参数并在约13万亿token上训练,将边界推向极限,但该公司对GPT-5的进展异常沉默。这篇论文暗示了原因:向静态架构添加更多数据会产生递减收益。OpenAI最近转向推理模型(o1、o3)和推理时计算,这与动态适应的需求一致,尽管其核心架构在预训练期间仍基本保持静态。

Google DeepMind的Gemini Ultra 1.0具有多模态能力,也面临这一天花板。他们在“自适应计算时间”(ACT)和具有动态路由的“混合专家”(MoE)方面的工作是直接回应。MoE架构中,每个输入会激活不同的“专家”子网络,允许模型动态分配特征——这是对静态特征问题的部分解决方案。然而,专家本身在训练后仍然是静态的。DeepMind最近关于“用于动态特征学习的超网络”(2024)的论文提出了一种更激进的方法:一个小型元网络在推理过程中生成特征提取器的权重,使模型能够实时适应新数据分布。

其他主要参与者也在采取行动。Anthropic的Claude系列强调“宪法AI”和可解释性,但其底层架构仍基于静态Transformer。Meta的LLaMA系列采用开源方式,但同样受限于静态特征问题。值得注意的是,Meta的FAIR实验室在动态网络方面有重要工作,包括“可塑性网络”和“持续学习”,这些直接针对静态特征瓶颈。

行业影响与未来路线图

这项理论证明对AI行业的影响深远。首先,它解释了为什么简单扩大模型和数据规模不再产生过去那样的收益。GPT-5的延迟、Gemini Ultra 2.0的传闻困难以及AI芯片需求增长放缓,都指向同一个根本问题:我们正在接近静态架构的缩放极限。

其次,它重新点燃了对“动态神经网络”的兴趣。这包括自适应计算时间、动态路由、元学习和持续学习等技术。这些方法允许模型在推理过程中调整其内部表示,而不是依赖固定的预训练特征。然而,这些方法仍处于早期阶段,在计算效率和训练稳定性方面面临重大挑战。

第三,它引发了关于“基础模型”概念的更广泛问题。如果静态特征在分布外任务上存在根本性限制,那么“一个模型统治所有”的范式可能需要重新思考。我们可能会看到向“自适应基础模型”的转变,这些模型可以根据任务或领域动态调整其特征空间。

结论:缩放时代的终结?

这项新理论工作标志着AI研究的一个转折点。缩放定律并非被推翻,而是被置于更严格的数学约束之下。静态特征学习是AI的下一个瓶颈,克服它需要根本性的架构创新,而不仅仅是增加更多数据和算力。

对于AI行业来说,信息很明确:是时候超越缩放,拥抱动态学习了。那些率先开发出真正动态特征学习方法的实验室,将定义AI的下一个时代。

更多来自 Hacker News

Bertsekas新著:将强化学习重新校准至最优控制的数学根基Dimitri Bertsekas,动态规划与最优控制领域的奠基人,发布了《强化学习与最优控制》一书,该书已在AI研究与工程领域重塑对话。作品系统性地在现代RL算法(从Q-learning到策略梯度)中重新推导,将其置于确定性与随机最优控制短视频正在重塑你的大脑:注意力危机持续加剧本周发表的一项新研究发出了严厉警告:普遍消费短视频内容不仅是一种分心,更是对大脑维持专注和形成持久记忆能力的直接攻击。该研究追踪了数千名参与者的神经活动和行为模式,发现TikTok、Instagram Reels和YouTube ShortAnthropic全球AI冻结呼吁:安全必需还是战略博弈?估值超600亿美元、由前OpenAI研究员创立的AI初创公司Anthropic,以要求全球暂停先进AI模型开发之举震惊科技界。该公司领导层,包括CEO Dario Amodei,认为下一代前沿模型——那些接近或超越人类推理能力、具备自主行动查看来源专题页Hacker News 已收录 4225 篇文章

时间归档

June 2026377 篇已发布文章

延伸阅读

Peter Norvig 加入 Recursive:40亿美元豪赌AI自我进化,颠覆参数 scaling 范式传奇计算机科学家、《人工智能:一种现代方法》合著者 Peter Norvig 正式加盟 Recursive——一家手握40亿美元、致力于打造可递归自我改进AI系统的神秘初创公司。这标志着AI行业从单纯扩大参数规模,向自主自我进化方向的根本性深度学习理论突破:从黑魔法到第一性原理一套新兴的理论框架正在将深度学习从一门“黑艺术”转变为严谨的科学学科。通过从第一性原理推导泛化、缩放定律和优化动力学,这一突破有望大幅削减训练成本,并为大语言模型、视频生成和世界模型解锁前所未有的效率。Bertsekas新著:将强化学习重新校准至最优控制的数学根基Dimitri Bertsekas的最新著作《强化学习与最优控制》不仅是一座学术里程碑,更是一次对领域的刻意校准。该书将现代强化学习拉回最优控制的数学严谨性中,挑战业界经验主义的漂移,为可信AI智能体提供理论基石。短视频正在重塑你的大脑:注意力危机持续加剧一项开创性研究证实了众多人心中的疑虑:短视频平台以15秒为周期的快速切换模式,正在从根本上重塑人类认知,侵蚀持续注意力,并损害记忆巩固能力。这不仅仅是一个坏习惯——而是我们学习和思考方式的结构性转变。

常见问题

这次模型发布“Scaling Laws Hit a Mathematical Wall: Static Feature Learning Is AI's Next Bottleneck”的核心内容是什么?

For a decade, the AI industry has operated on a simple, powerful belief: more data plus more compute equals better models. Scaling laws, first formalized in the landmark 2020 Kapla…

从“What is static feature learning and why does it limit AI scaling?”看,这个模型发布为什么重要?

The core of the new theoretical work lies in a rigorous analysis of the minimax lower bound for excess risk in supervised learning with static feature extractors. The researchers model a neural network as a two-stage pro…

围绕“How does the minimax lower bound prove scaling laws are ending?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。