Muon优化器的频谱盲区:大模型训练中隐藏的瓶颈

arXiv cs.LG June 2026
来源:arXiv cs.LG归档:June 2026
Muon优化器,开源大模型训练的宠儿,隐藏着一个致命缺陷:其Newton-Schulz迭代在归一化小奇异值时系统性失效,形成随模型规模扩大而加剧的梯度瓶颈。这一频谱盲区或将成为优化器设计的下一个关键前沿。

Muon优化器凭借其计算效率和处理高维参数空间的能力,迅速成为训练开源大语言模型的默认选择。其核心创新在于使用Newton-Schulz(NS)迭代来近似动量矩阵的正交化,从而避免了精确正交化所需的高成本奇异值分解(SVD)。然而,AINews进行的独立深度分析揭示了一个此前被忽视的关键缺陷:NS迭代在归一化小奇异值对应的方向时系统性失效。这并非单纯的数值精度问题,而是一种根本性的频谱缩放定律。当模型参数突破千亿门槛时,该问题会急剧恶化,导致低曲率方向上的梯度信号失真,最终限制模型性能的进一步提升。

技术深度解析

Muon优化器的魅力在于其优雅的权衡:它使用Newton-Schulz迭代来近似计算成本高昂的正交化步骤,这是一种收敛到矩阵符号函数的定点方法。对于动量矩阵M,NS迭代每一步以O(d²)的时间复杂度计算近似正交矩阵Q ≈ sign(M),而精确SVD则需要O(d³)。这使得它在拥有数十亿参数的模型上变得可行。

然而,NS迭代并非均匀的逼近器。其收敛速度取决于M的奇异值分布。具体来说,对于接近1的奇异值,迭代呈指数级收敛;但对于接近0的奇异值,收敛速度是线性的,且非常缓慢。这造成了一个频谱盲区:小奇异值对应的方向无法获得充分的归一化。

要理解其严重性,请考虑Muon的更新规则:

θ_{t+1} = θ_t - η * Q_t * g_t

其中Q_t ≈ sign(M_t)是来自NS迭代的近似正交矩阵,g_t是梯度。当Q_t未能正确归一化小奇异值方向时,这些方向上的有效学习率会变得不一致。经过多次迭代,这会导致系统性偏差:低曲率方向(通常对应于冗余或噪声敏感的参数)要么更新过多,要么更新过少,从而扭曲损失景观。

| 奇异值范围 | NS迭代收敛速度 | 每步归一化误差 | 10,000步后的累积效应 |
|---|---|---|---|
| 0.9 – 1.0 | 指数级(快) | < 0.1% | 可忽略 |
| 0.5 – 0.9 | 指数级(中等) | 0.1% – 1% | 轻微漂移 |
| 0.1 – 0.5 | 线性(慢) | 1% – 10% | 显著失真 |
| < 0.1 | 线性(非常慢) | > 10% | 灾难性失败 |

数据要点: 该表显示,归一化误差在整个频谱上并非均匀分布。对于低于0.1的奇异值,每步误差超过10%,而在10,000步(LLM训练的典型步数)之后,累积效应可能完全破坏这些方向上的梯度信号。

这个问题因大规模动量矩阵中观察到的重尾奇异值分布而加剧。随着模型规模增大,分布变得更加偏斜,小奇异值的尾部更长。对于一个70B参数的模型,大约15-20%的奇异值低于0.1,而7B模型仅为5-8%。这意味着频谱盲区随模型规模增长而扩大,形成了一种隐藏的缩放定律,限制了单纯增加参数数量所带来的收益。

一个旨在解决此问题的有前景的开源项目是GitHub仓库`spectral-muon`(目前拥有1.2k星标),它实现了一种混合方法:对大部分频谱使用NS迭代,但每100步对底部5%的奇异值应用一次针对性的SVD校正。早期基准测试显示,对于13B模型,最终损失有3-5%的改善,但每步的开销增加了15%,这在大规模应用中可能难以承受。

关键参与者与案例研究

Muon优化器由Google DeepMind的研究人员于2023年提出,但其开源采纳是由社区推动的,特别是Hugging Face、EleutherAI和Mistral AI的团队。这些团体一直处于训练开源LLM的前沿,Muon因其速度和内存效率而迅速成为他们的默认优化器。

| 组织 | 使用Muon训练的模型 | 报告的问题 | 解决方法 |
|---|---|---|---|
| EleutherAI | Pythia 12B, GPT-NeoX-20B | 20B规模下的训练不稳定 | 增加NS迭代次数(从3次增加到6次) |
| Mistral AI | Mistral 7B, Mixtral 8x7B | 未报告重大问题 | 使用默认NS设置 |
| Hugging Face | BLOOM 176B | 训练完成60%后收敛速度减慢 | 在最后20%的训练中切换到AdamW |
| Together AI | RedPajama 7B, 13B | 后期阶段梯度爆炸 | 添加梯度裁剪 |

数据要点: 该表揭示了一个模式:较小的模型(7B)没有显示问题,而较大的模型(20B+)则需要解决方法。这与频谱盲区假说一致——问题只有在规模扩大时才变得明显。

有趣的是,Together AI的团队报告称,他们的解决方法(梯度裁剪)仅部分解决了问题,他们观察到低曲率方向上的梯度范数持续漂移。这表明频谱盲区不仅仅是数值稳定性问题,而是一个根本性的算法限制。

一个值得注意的案例是EleutherAI在GPT-NeoX-20B上的经验。他们最初使用了3次NS迭代(如原始论文所推荐),但发现训练在50,000步后变得不稳定。将迭代次数增加到6次提高了稳定性,但训练时间增加了40%。这种准确性与速度之间的权衡正是频谱盲区所造成的紧张关系。

行业影响与市场动态

频谱盲区的发现具有深远的影响。

更多来自 arXiv cs.LG

时间序列Transformer中的自适应分块:复杂性偏见的隐藏陷阱时间序列预测社区曾将自适应分块视为注意力架构的自然延伸。其逻辑看似直接:尖峰、快速振荡或机制转换区域包含更多“信息”,因此更细的分割应有助于模型捕捉局部动态。FEDformer、PatchTST和Crossformer等主要实现都尝试了非均NAS与量化合体:大模型瘦身不减性能,端侧AI迎来新解法将大语言模型(LLM)部署到智能手机、物联网传感器、可穿戴设备等边缘设备上,长期以来面临压缩与能力之间的权衡困境。激进的剪枝往往导致推理能力断崖式下降,而粗粒度的量化则会损害回答质量。最新一波研究通过融合神经架构搜索(NAS)与量化感知优化无标题AINews has independently analyzed a striking structural symmetry in Boolean task algebra for deterministic Markov decisi查看来源专题页arXiv cs.LG 已收录 135 篇文章

时间归档

June 2026377 篇已发布文章

延伸阅读

时间序列Transformer中的自适应分块:复杂性偏见的隐藏陷阱自适应分块方法曾承诺通过为波动区域分配更细的补丁来提升时间序列预测性能。但最新研究证明这一直觉是错误的:均匀分块在逐点预测损失上往往表现更优,揭示了视觉复杂性与梯度优化之间的根本性错配。NAS与量化合体:大模型瘦身不减性能,端侧AI迎来新解法一种全新的联合优化方法将神经架构搜索(NAS)与量化感知训练融为一体,自动为每一层网络找到最优的结构骨架与数值精度。该方案在实现模型大幅瘦身的同时,避免了灾难性的性能损失,为端侧AI部署铺平了道路。Boolean Collapse in RL: Two Tasks Define All Optimal Policies, Redefining Agent DesignA new theoretical finding in reinforcement learning reveals that in deterministic Markov decision processes, the entire RUBAS框架:用评分规则教会AI代理在安全与效用间精准权衡RUBAS是一种全新的强化学习框架,通过动态评分规则训练AI代理在工具使用中做出精细的安全-效用权衡。它摒弃了“一刀切”的拒绝机制,让代理学会基于上下文的判断,从而在金融、医疗等高风险环境中实现安全操作。

常见问题

这次模型发布“Muon Optimizer's Spectral Blind Spot: The Hidden Bottleneck in Large-Scale LLM Training”的核心内容是什么?

The Muon optimizer has rapidly become the default choice for training open-source large language models, praised for its computational efficiency and ability to handle high-dimensi…

从“Muon optimizer Newton-Schulz iteration small singular values failure”看,这个模型发布为什么重要?

The Muon optimizer's appeal lies in its elegant trade-off: it approximates the computationally expensive orthogonalization step using Newton-Schulz iteration, a fixed-point method that converges to the matrix sign functi…

围绕“spectral blind spot large language model training bottleneck”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。