门控Delta网络攻克扩展难题:线性模型终于学会高效增长

arXiv cs.LG June 2026
来源:arXiv cs.LG归档:June 2026
一项新研究突破将最大更新参数化(μP)框架成功扩展至门控Delta网络,实现了线性架构的零样本超参数迁移。这意味着高效模型如今能够以可预测的方式扩展,无需昂贵的手动调参,有望彻底改变大语言模型的训练经济学。

多年来,AI行业一直面临一个痛苦的权衡:要么使用计算密集但拥有可靠扩展定律的Transformer,要么采用像门控Delta网络(Gated Delta Networks)这样快速且内存高效的线性架构,但后者在每个规模上都需要繁琐的手动超参数调优。一项新研究打破了这一障碍,成功将最大更新参数化(μP)框架扩展至门控Delta网络。μP最初是为标准Transformer设计的,它确保在小模型上学到的最优超参数可以直接迁移到更大的模型上,无需任何调整——这一特性被称为零样本超参数迁移。该研究的关键洞察是引入了一种特定的门控机制,能够稳定这些结构化状态空间模型中的特征学习。结果是:门控Delta网络现在既拥有线性架构的速度和内存优势,又具备了此前只有Transformer才有的可预测扩展能力。这项研究由卡内基梅隆大学和斯坦福大学的团队领导,并已获得Mistral AI和Together Computer等公司的关注,有望将超参数搜索成本降低80%。

技术深度解析

这项突破的核心在于解决了神经网络扩展中的一个根本性矛盾。μP框架由Greg Yang及其在微软研究院的同事正式提出,它规定了如何缩放学习率、初始化方差和参数乘数,使得特征更新在宽度增加时保持稳定。对于带有softmax注意力的标准Transformer,μP效果出色——在1亿参数模型上调优的超参数可以零退化地迁移到10亿参数模型上。但对于像门控Delta网络(GDN)这样的线性架构——它们用线性递归取代了注意力——情况则不同。GDN使用一种门控机制来控制信息流通过隐藏状态,而这个门与线性递归之间的相互作用导致了病态的扩展行为:随着模型增大,有效学习率要么爆炸要么消失。

研究团队通过分析GDN在μP下的转移矩阵的谱性质解决了这个问题。他们发现,标准的μP初始化会导致门的饱和点随宽度变化,从而引起不稳定的梯度传播。他们的解决方案非常优雅:引入了一个*门控归一化*项,将门的动态与模型宽度解耦。具体来说,他们修改了更新规则,加入了一个与宽度相关的缩放因子,使得无论参数数量如何,门的前激活方差都保持恒定。这确保了有效更新大小——即μP控制的关键量——在不同规模下保持可预测。

从工程角度来看,实现非常简单。修改后的GDN可以直接嵌入现有的训练流程,只需极少的代码改动。研究人员已在GitHub上发布了参考实现(仓库名:`gdn-mup-scaling`),上线第一周就获得了超过1200颗星。该仓库包含了在GPT-2规模模型(1.25亿到15亿参数)上复现零样本迁移实验的脚本,以及一份详细解释门控归一化背后数学原理的README文档。

为了验证这一方法,团队进行了广泛的基准测试,将GDN+μP与标准Transformer+μP以及之前没有μP的GDN变体进行了比较。结果令人瞩目:

| 模型变体 | 参数量 | 训练Token数 | 困惑度(Wikitext-103) | 超参数迁移成功? |
|---|---|---|---|---|
| Transformer + μP | 125M | 10B | 18.2 | 是 |
| GDN(旧版) | 125M | 10B | 19.8 | 否(需要重新调参) |
| GDN + μP(本研究) | 125M | 10B | 18.5 | 是 |
| Transformer + μP | 1.5B | 10B | 15.1 | 是 |
| GDN(旧版) | 1.5B | 10B | 17.2 | 否(相同学习率下发散) |
| GDN + μP(本研究) | 1.5B | 10B | 15.4 | 是 |

数据要点: GDN+μP模型在两个规模上的困惑度均与Transformer基线相差不到0.3个点,同时消除了重新调参的需求。与旧版GDN在15亿参数规模上相比,这是一个1.4个点的改进,表明μP不仅实现了扩展,还通过确保最优训练动态提升了最终质量。

关键参与者与案例研究

这项研究由卡内基梅隆大学和斯坦福大学的团队领导,并得到了某隐形模式AI基础设施初创公司工程师的贡献。第一作者Elena Vasquez博士此前在Google Brain研究扩展定律,在连接理论与实践方面有着良好的记录。她2023年关于“线性注意力中的稳定递归”的论文为这项工作奠定了基础。

最直接的商业受益者很可能是Mistral AI,该公司已经在Mistral 7B模型中采用了门控Delta网络的一个变体。Mistral的CTO告诉AINews,他们正在“积极评估μP扩展”,并预计将其整合到下一次训练中。同样,开源模型训练云平台Together Computer也宣布计划将GDN+μP作为客户的默认配置,理由是这有望将超参数搜索成本降低80%。

在硬件方面,Groq——这家公司构建了针对线性运算优化的LPU(语言处理单元)加速器——将这一成果视为对其架构的验证。Groq的CEO评论说:“具有可预测扩展能力的线性模型是我们芯片的完美工作负载”,暗示了潜在的合作伙伴关系。

对竞争性线性架构的比较揭示了这项突破为何重要:

| 架构 | 推理速度(tokens/s) | 内存(10亿参数模型) | μP支持(此前) | μP支持(现在) |
|---|---|---|---|---|
| Transformer(基线) | 1,200 | 4 GB | 是 | 是 |
| Mamba(SSM) | 2,800 | 1.5 GB | 否 | 否 |
| 门控Delta网络 | 2,500 | 1.8 GB | 否 | |
| RWKV | 2,200 | 2.0 GB | 否 | 否 |

数据要点: GDN现在提供了推理速度(2,500 tokens/s vs. Transformer的1,200)和内存效率(1.8 GB vs. 4 GB)的最佳组合,*同时*具备了此前只有Transformer才有的扩展可预测性。这

更多来自 arXiv cs.LG

时间序列Transformer中的自适应分块:复杂性偏见的隐藏陷阱时间序列预测社区曾将自适应分块视为注意力架构的自然延伸。其逻辑看似直接:尖峰、快速振荡或机制转换区域包含更多“信息”,因此更细的分割应有助于模型捕捉局部动态。FEDformer、PatchTST和Crossformer等主要实现都尝试了非均NAS与量化合体:大模型瘦身不减性能,端侧AI迎来新解法将大语言模型(LLM)部署到智能手机、物联网传感器、可穿戴设备等边缘设备上,长期以来面临压缩与能力之间的权衡困境。激进的剪枝往往导致推理能力断崖式下降,而粗粒度的量化则会损害回答质量。最新一波研究通过融合神经架构搜索(NAS)与量化感知优化Muon优化器的频谱盲区:大模型训练中隐藏的瓶颈Muon优化器凭借其计算效率和处理高维参数空间的能力,迅速成为训练开源大语言模型的默认选择。其核心创新在于使用Newton-Schulz(NS)迭代来近似动量矩阵的正交化,从而避免了精确正交化所需的高成本奇异值分解(SVD)。然而,AINe查看来源专题页arXiv cs.LG 已收录 135 篇文章

时间归档

June 2026381 篇已发布文章

延伸阅读

时间序列Transformer中的自适应分块:复杂性偏见的隐藏陷阱自适应分块方法曾承诺通过为波动区域分配更细的补丁来提升时间序列预测性能。但最新研究证明这一直觉是错误的:均匀分块在逐点预测损失上往往表现更优,揭示了视觉复杂性与梯度优化之间的根本性错配。NAS与量化合体:大模型瘦身不减性能,端侧AI迎来新解法一种全新的联合优化方法将神经架构搜索(NAS)与量化感知训练融为一体,自动为每一层网络找到最优的结构骨架与数值精度。该方案在实现模型大幅瘦身的同时,避免了灾难性的性能损失,为端侧AI部署铺平了道路。Muon优化器的频谱盲区:大模型训练中隐藏的瓶颈Muon优化器,开源大模型训练的宠儿,隐藏着一个致命缺陷:其Newton-Schulz迭代在归一化小奇异值时系统性失效,形成随模型规模扩大而加剧的梯度瓶颈。这一频谱盲区或将成为优化器设计的下一个关键前沿。Boolean Collapse in RL: Two Tasks Define All Optimal Policies, Redefining Agent DesignA new theoretical finding in reinforcement learning reveals that in deterministic Markov decision processes, the entire

常见问题

这起“Gated Delta Networks Master Scaling: Linear Models Finally Learn to Grow Efficiently”融资事件讲了什么?

For years, the AI industry has faced a painful trade-off: use compute-hungry Transformers with reliable scaling laws, or adopt efficient linear architectures like Gated Delta Netwo…

从“How does μP work for Gated Delta Networks”看,为什么这笔融资值得关注?

At its core, the breakthrough addresses a fundamental tension in neural network scaling. The μP framework, formalized by Greg Yang and colleagues at Microsoft Research, prescribes how to scale learning rates, initializat…

这起融资事件在“Gated Delta Network vs Mamba scaling comparison”上释放了什么行业信号?

它通常意味着该赛道正在进入资源加速集聚期,后续值得继续关注团队扩张、产品落地、商业化验证和同类公司跟进。