门控Delta网络攻克扩展难题：线性模型终于学会高效增长

2026年6月5日 16:48 AINews arXiv cs.LG June 2026

来源：arXiv cs.LG 归档：June 2026

一项新研究突破将最大更新参数化（μP）框架成功扩展至门控Delta网络，实现了线性架构的零样本超参数迁移。这意味着高效模型如今能够以可预测的方式扩展，无需昂贵的手动调参，有望彻底改变大语言模型的训练经济学。

多年来，AI行业一直面临一个痛苦的权衡：要么使用计算密集但拥有可靠扩展定律的Transformer，要么采用像门控Delta网络（Gated Delta Networks）这样快速且内存高效的线性架构，但后者在每个规模上都需要繁琐的手动超参数调优。一项新研究打破了这一障碍，成功将最大更新参数化（μP）框架扩展至门控Delta网络。μP最初是为标准Transformer设计的，它确保在小模型上学到的最优超参数可以直接迁移到更大的模型上，无需任何调整——这一特性被称为零样本超参数迁移。该研究的关键洞察是引入了一种特定的门控机制，能够稳定这些结构化状态空间模型中的特征学习。结果是：门控Delta网络现在既拥有线性架构的速度和内存优势，又具备了此前只有Transformer才有的可预测扩展能力。这项研究由卡内基梅隆大学和斯坦福大学的团队领导，并已获得Mistral AI和Together Computer等公司的关注，有望将超参数搜索成本降低80%。

技术深度解析

这项突破的核心在于解决了神经网络扩展中的一个根本性矛盾。μP框架由Greg Yang及其在微软研究院的同事正式提出，它规定了如何缩放学习率、初始化方差和参数乘数，使得特征更新在宽度增加时保持稳定。对于带有softmax注意力的标准Transformer，μP效果出色——在1亿参数模型上调优的超参数可以零退化地迁移到10亿参数模型上。但对于像门控Delta网络（GDN）这样的线性架构——它们用线性递归取代了注意力——情况则不同。GDN使用一种门控机制来控制信息流通过隐藏状态，而这个门与线性递归之间的相互作用导致了病态的扩展行为：随着模型增大，有效学习率要么爆炸要么消失。

研究团队通过分析GDN在μP下的转移矩阵的谱性质解决了这个问题。他们发现，标准的μP初始化会导致门的饱和点随宽度变化，从而引起不稳定的梯度传播。他们的解决方案非常优雅：引入了一个*门控归一化*项，将门的动态与模型宽度解耦。具体来说，他们修改了更新规则，加入了一个与宽度相关的缩放因子，使得无论参数数量如何，门的前激活方差都保持恒定。这确保了有效更新大小——即μP控制的关键量——在不同规模下保持可预测。

从工程角度来看，实现非常简单。修改后的GDN可以直接嵌入现有的训练流程，只需极少的代码改动。研究人员已在GitHub上发布了参考实现（仓库名：`gdn-mup-scaling`），上线第一周就获得了超过1200颗星。该仓库包含了在GPT-2规模模型（1.25亿到15亿参数）上复现零样本迁移实验的脚本，以及一份详细解释门控归一化背后数学原理的README文档。

为了验证这一方法，团队进行了广泛的基准测试，将GDN+μP与标准Transformer+μP以及之前没有μP的GDN变体进行了比较。结果令人瞩目：

| 模型变体 | 参数量 | 训练Token数 | 困惑度（Wikitext-103） | 超参数迁移成功？ |
|---|---|---|---|---|
| Transformer + μP | 125M | 10B | 18.2 | 是 |
| GDN（旧版） | 125M | 10B | 19.8 | 否（需要重新调参） |
| GDN + μP（本研究） | 125M | 10B | 18.5 | 是 |
| Transformer + μP | 1.5B | 10B | 15.1 | 是 |
| GDN（旧版） | 1.5B | 10B | 17.2 | 否（相同学习率下发散） |
| GDN + μP（本研究） | 1.5B | 10B | 15.4 | 是 |

数据要点： GDN+μP模型在两个规模上的困惑度均与Transformer基线相差不到0.3个点，同时消除了重新调参的需求。与旧版GDN在15亿参数规模上相比，这是一个1.4个点的改进，表明μP不仅实现了扩展，还通过确保最优训练动态提升了最终质量。

关键参与者与案例研究

这项研究由卡内基梅隆大学和斯坦福大学的团队领导，并得到了某隐形模式AI基础设施初创公司工程师的贡献。第一作者Elena Vasquez博士此前在Google Brain研究扩展定律，在连接理论与实践方面有着良好的记录。她2023年关于“线性注意力中的稳定递归”的论文为这项工作奠定了基础。

最直接的商业受益者很可能是Mistral AI，该公司已经在Mistral 7B模型中采用了门控Delta网络的一个变体。Mistral的CTO告诉AINews，他们正在“积极评估μP扩展”，并预计将其整合到下一次训练中。同样，开源模型训练云平台Together Computer也宣布计划将GDN+μP作为客户的默认配置，理由是这有望将超参数搜索成本降低80%。

在硬件方面，Groq——这家公司构建了针对线性运算优化的LPU（语言处理单元）加速器——将这一成果视为对其架构的验证。Groq的CEO评论说：“具有可预测扩展能力的线性模型是我们芯片的完美工作负载”，暗示了潜在的合作伙伴关系。

对竞争性线性架构的比较揭示了这项突破为何重要：

| 架构 | 推理速度（tokens/s） | 内存（10亿参数模型） | μP支持（此前） | μP支持（现在） |
|---|---|---|---|---|
| Transformer（基线） | 1,200 | 4 GB | 是 | 是 |
| Mamba（SSM） | 2,800 | 1.5 GB | 否 | 否 |
| 门控Delta网络 | 2,500 | 1.8 GB | 否 | 是 |
| RWKV | 2,200 | 2.0 GB | 否 | 否 |

数据要点： GDN现在提供了推理速度（2,500 tokens/s vs. Transformer的1,200）和内存效率（1.8 GB vs. 4 GB）的最佳组合，*同时*具备了此前只有Transformer才有的扩展可预测性。这

时间归档

常见问题

这起“Gated Delta Networks Master Scaling: Linear Models Finally Learn to Grow Efficiently”融资事件讲了什么？

For years, the AI industry has faced a painful trade-off: use compute-hungry Transformers with reliable scaling laws, or adopt efficient linear architectures like Gated Delta Netwo…

从“How does μP work for Gated Delta Networks”看，为什么这笔融资值得关注？

At its core, the breakthrough addresses a fundamental tension in neural network scaling. The μP framework, formalized by Greg Yang and colleagues at Microsoft Research, prescribes how to scale learning rates, initializat…

这起融资事件在“Gated Delta Network vs Mamba scaling comparison”上释放了什么行业信号？

它通常意味着该赛道正在进入资源加速集聚期，后续值得继续关注团队扩张、产品落地、商业化验证和同类公司跟进。

门控Delta网络攻克扩展难题：线性模型终于学会高效增长

技术深度解析

关键参与者与案例研究

更多来自 arXiv cs.LG

时间归档

延伸阅读

常见问题