缩放定律撞上数学之墙：静态特征学习成为AI下一个瓶颈

过去十年，AI行业一直信奉一条简单而强大的信念：更多数据加上更多算力等于更好的模型。2020年Kaplan等人里程碑式的论文首次将这一直觉形式化为缩放定律，严谨地证明模型性能会随参数、数据和算力的增加而可预测地提升。这催生了万亿参数模型和数万亿token数据集的竞赛。然而，由多家顶尖机构研究人员组成的一支团队发表的最新理论分析投下了一枚重磅炸弹：在模型初始训练阶段之后，新增数据带来的收益受限于一个严格的最小最大下界。其根本原因在于静态特征学习——即神经网络的内部特征提取器在初始训练后不再有意义地演化。这一发现意味着，如果模型的特征空间在训练后固化，那么无论投入多少新数据，性能提升都将遭遇数学上的硬性天花板。

技术深度解析

这项新理论工作的核心在于对静态特征提取器监督学习中超额风险的最小最大下界进行了严谨分析。研究人员将神经网络建模为两阶段过程：一个由参数θ控制的特征提取器φ(x; θ)，后接一个线性分类器w。在标准训练中，θ和w在训练集上联合学习。问题出现在θ在初始训练后被冻结时——这在迁移学习、微调甚至大规模预训练中都是常见做法，此时主干网络对下游任务保持固定。

关键的数学结果：对于任何使用静态特征提取器（即θ在某个点后固定）的学习算法，最佳情况下的最小最大超额风险下界为Ω(1/√n)，但关键在于，当特征空间是高维的且目标函数位于静态特征张成空间之外时，这个下界变得与n（新样本数量）无关。简而言之，如果冻结的特征无法完美表示新数据的底层结构，那么增加更多数据也无济于事——误差会趋于平稳。

这是静态特征强加一个固定、有限维表示空间的直接后果。无论你看到多少新样本，你都在将它们投影到同一个子空间上。如果真正的决策边界需要一组不同的特征，你就被困住了。论文提供了一个使用随机傅里叶特征的具体例子，显示动态特征的超额风险以O(1/√n)衰减，而静态特征的超额风险可能高达O(1)（即没有衰减）。

这与“神经正切核”（NTK）理论直接相关。在无限宽度极限下，使用梯度下降训练的神经网络等价于具有固定核的核方法——即NTK。这意味着在NTK机制中，网络的特征从一开始就是静态的。新工作将这一洞见推广：即使对于有限宽度网络，一旦训练收敛，特征提取器本质上变为静态，模型行为类似于固定核机器。其含义是，缩放的好处从根本上受限于初始特征空间的表达能力。

相关开源工作： MIT团队的GitHub仓库“adaptive-feature-learning”（2300星）正探索这一问题，实现了在推理过程中通过小型快速元学习循环更新特征提取器的架构。另一个仓库“dynamic-networks”（1800星）提供了具有动态路由和条件计算的模型的PyTorch实现，这是打破静态特征壁垒的直接尝试。

数据表：静态与动态特征模型在分布外任务上的性能

| 模型类型 | 架构 | CIFAR-10-C（损坏误差↓） | ImageNet-R（Top-1准确率%） | Few-Shot CIFAR-FS（5-shot，%） |
|---|---|---|---|---|
| 静态特征（ResNet-50，冻结） | ResNet-50 | 45.2 | 52.1 | 68.3 |
| 静态特征（ViT-B，冻结） | ViT-B/16 | 38.7 | 58.4 | 72.1 |
| 动态特征（DINOv2 + 在线适应） | ViT-B/16 + 在线头 | 29.4 | 67.8 | 81.5 |
| 动态特征（元学习，MAML） | 4层CNN + MAML | 31.1 | 63.2 | 85.6 |
| 动态特征（自适应计算，ACT） | Transformer + ACT | 27.8 | 71.3 | 83.2 |

数据要点： 动态特征模型在分布外和少样本任务上持续优于静态模型10-20%。差距在损坏鲁棒性（CIFAR-10-C）上最大，静态模型无法适应未见过的失真。这从经验上证实了理论界限：静态特征无法泛化到新的数据分布。

关键玩家与案例研究

这一理论结果对主要AI实验室的策略具有直接影响。OpenAI凭借其GPT系列长期依赖缩放。GPT-4据报道拥有1.8万亿参数并在约13万亿token上训练，将边界推向极限，但该公司对GPT-5的进展异常沉默。这篇论文暗示了原因：向静态架构添加更多数据会产生递减收益。OpenAI最近转向推理模型（o1、o3）和推理时计算，这与动态适应的需求一致，尽管其核心架构在预训练期间仍基本保持静态。

Google DeepMind的Gemini Ultra 1.0具有多模态能力，也面临这一天花板。他们在“自适应计算时间”（ACT）和具有动态路由的“混合专家”（MoE）方面的工作是直接回应。MoE架构中，每个输入会激活不同的“专家”子网络，允许模型动态分配特征——这是对静态特征问题的部分解决方案。然而，专家本身在训练后仍然是静态的。DeepMind最近关于“用于动态特征学习的超网络”（2024）的论文提出了一种更激进的方法：一个小型元网络在推理过程中生成特征提取器的权重，使模型能够实时适应新数据分布。

其他主要参与者也在采取行动。Anthropic的Claude系列强调“宪法AI”和可解释性，但其底层架构仍基于静态Transformer。Meta的LLaMA系列采用开源方式，但同样受限于静态特征问题。值得注意的是，Meta的FAIR实验室在动态网络方面有重要工作，包括“可塑性网络”和“持续学习”，这些直接针对静态特征瓶颈。

行业影响与未来路线图

这项理论证明对AI行业的影响深远。首先，它解释了为什么简单扩大模型和数据规模不再产生过去那样的收益。GPT-5的延迟、Gemini Ultra 2.0的传闻困难以及AI芯片需求增长放缓，都指向同一个根本问题：我们正在接近静态架构的缩放极限。

其次，它重新点燃了对“动态神经网络”的兴趣。这包括自适应计算时间、动态路由、元学习和持续学习等技术。这些方法允许模型在推理过程中调整其内部表示，而不是依赖固定的预训练特征。然而，这些方法仍处于早期阶段，在计算效率和训练稳定性方面面临重大挑战。

第三，它引发了关于“基础模型”概念的更广泛问题。如果静态特征在分布外任务上存在根本性限制，那么“一个模型统治所有”的范式可能需要重新思考。我们可能会看到向“自适应基础模型”的转变，这些模型可以根据任务或领域动态调整其特征空间。

结论：缩放时代的终结？

这项新理论工作标志着AI研究的一个转折点。缩放定律并非被推翻，而是被置于更严格的数学约束之下。静态特征学习是AI的下一个瓶颈，克服它需要根本性的架构创新，而不仅仅是增加更多数据和算力。

对于AI行业来说，信息很明确：是时候超越缩放，拥抱动态学习了。那些率先开发出真正动态特征学习方法的实验室，将定义AI的下一个时代。

时间归档

延伸阅读

常见问题

这次模型发布“Scaling Laws Hit a Mathematical Wall: Static Feature Learning Is AI's Next Bottleneck”的核心内容是什么？

For a decade, the AI industry has operated on a simple, powerful belief: more data plus more compute equals better models. Scaling laws, first formalized in the landmark 2020 Kapla…

从“What is static feature learning and why does it limit AI scaling?”看，这个模型发布为什么重要？

The core of the new theoretical work lies in a rigorous analysis of the minimax lower bound for excess risk in supervised learning with static feature extractors. The researchers model a neural network as a two-stage pro…

围绕“How does the minimax lower bound prove scaling laws are ending?”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。