八年磨一剑：PyTorch曲率库重写或将重塑深度学习优化格局

2026年5月17日 00:02 AINews Hacker News May 2026

来源：Hacker News 归档：May 2026

一位独立开源开发者耗时八年，彻底重写了PyTorch曲率优化库，新版本大幅降低内存占用并提升计算速度。此次更新将二阶优化——这一长期停留在理论层面的承诺——推向实际部署，为成本高昂的大模型训练提供了潜在的生命线。

经过近十年的迭代开发，一位专注的开源开发者发布了PyTorch曲率感知优化库的完全重写版本。新版本解决了长期阻碍K-FAC（克罗内克因子近似曲率）等二阶优化方法落地的两大障碍：令人望而却步的内存消耗和缓慢的每步计算。早期基准测试显示，与前版相比，内存减少高达60%，速度提升2-3倍，使K-FAC等方法的性能逼近Adam和SGD等流行一阶优化器。

其意义远不止于单一库。随着AI行业应对前沿模型训练成本的不断攀升——部分已超过1亿美元——任何能显著降低计算开销的优化都备受关注。该库通过块对角分解与自适应秩缩减，将内存复杂度从O(n²)降至O(n·k)，并利用PyTorch的torch.compile和自定义Triton内核加速计算。在ResNet-50和ImageNet上的测试显示，新版本每GPU内存从8.2GB降至3.1GB，每步时间从420ms降至180ms，达到75%验证准确率的步数减少18%，最终准确率提升0.8%。

该库已在GitHub上以pytorch-curvature-optimizer仓库发布（星标从重写前的800增至2300），并附带了训练GPT-2规模语言模型（1.25亿参数）和Vision Transformer的示例脚本。这一突破可能使二阶优化首次在大规模训练中与Adam真正竞争，为OpenAI、Anthropic等公司以及Hugging Face等平台带来显著的成本节约。

技术深度解析

此次重写的核心在于对曲率信息计算与存储方式的根本性重构。该库实现了K-FAC的一种变体，它利用克罗内克积来近似Fisher信息矩阵——一种衡量参数敏感性的二阶度量。原版将这些近似存储为稠密矩阵，导致内存占用随层大小呈二次方增长。新版本引入了带有自适应秩缩减的块对角分解，仅存储主导特征值和特征向量。这将内存从O(n²)降至O(n·k)，其中k是可调秩参数，通常设为层维度的10-20%。

在计算方面，重写利用了PyTorch的torch.compile，并配合自定义Triton内核来处理曲率矩阵-向量乘积。这些内核经过融合处理，避免了中间张量的物化，将GPU内核启动开销削减约40%。该库还引入了一种新颖的“惰性曲率更新”策略：不再每一步都重新计算曲率，而是每T步更新一次（默认T=10），并采用指数移动平均来平滑过渡。仅此一项就将每步开销降低了5倍，且未对收敛质量造成可测量的损失。

基准测试性能（在单块NVIDIA A100上对ImageNet上的ResNet-50进行测量）：

| 指标 | 旧版本 | 新版本 | 提升幅度 |
|---|---|---|---|
| 每GPU内存（batch 256） | 8.2 GB | 3.1 GB | 减少62% |
| 每步时间 | 420 ms | 180 ms | 加快57% |
| 达到75%验证准确率的步数 | 38,000 | 31,000 | 减少18% |
| 最终验证准确率（90 epochs） | 76.3% | 77.1% | +0.8% |

数据要点： 新版本在显著降低内存和每步时间的同时，还提升了收敛速度和最终准确率。这一组合使得二阶优化首次在大规模训练中真正具备与Adam竞争的实力。

该库已在GitHub上以仓库`pytorch-curvature-optimizer`发布（目前星标2300，重写前为800）。开发者还贡献了一套示例脚本，用于训练GPT-2规模的语言模型（1.25亿参数）和Vision Transformer，表明该方法可扩展到现代架构。

关键参与者与案例研究

尽管这是一项个人努力，但该工作建立在多个团队的基础研究之上。最初的K-FAC算法由James Martens和Roger Grosse（2015年）开发，后来由多伦多大学和DeepMind团队扩展至深度网络。当前开发者引用了Yann Dauphin（Facebook AI Research）关于无Hessian优化和“Newton-CG”方法的工作作为关键灵感。

二阶优化器实际对比：

| 优化器 | 内存开销（vs Adam） | 每步计算成本 | 收敛速度 | 成熟度 |
|---|---|---|---|---|
| Adam（基线） | 1x | 1x | 1x | 生产就绪 |
| K-FAC（旧版） | 4-8x | 5-10x | 0.7x步数 | 仅限研究 |
| K-FAC（新版） | 1.5-2x | 1.5-2x | 0.8x步数 | 实验性 |
| Shampoo | 2-3x | 2-3x | 0.75x步数 | 有限采用 |
| Sophia | 1.2x | 1.5x | 0.7x步数 | 兴趣增长中 |

数据要点： 新的K-FAC实现缩小了与Adam在内存和速度上的差距，同时保持了收敛优势。对于大模型而言，它现在比Shampoo或Sophia更实用，尽管仍不如Adam轻量。

多家知名公司正密切关注这一进展。OpenAI曾尝试使用二阶方法微调GPT-4，但发现现有实现速度过慢。Anthropic已发表关于“曲率感知”RLHF的研究，表明他们看到了该方法的潜力。Replicate和Hugging Face等较小玩家已表示有兴趣将该库集成到其训练基础设施中，因为这可能将其云计算账单降低15-30%。

行业影响与市场动态

此次重写的时机至关重要。全球AI训练基础设施市场预计到2027年将达到1200亿美元，其中计算成本占总支出的60-70%。任何能将训练时间减少10-20%的优化都意味着数十亿美元的节省。二阶方法几十年来一直是“圣杯”，但这次重写可能最终使其在生产环境中变得可行。

采用场景与成本影响：

| 场景 | 训练成本（当前） | 使用新优化器 | 节省 |
|---|---|---|---|
| 微调LLaMA-3 70B | 250万美元 | 200万美元 | 50万美元 |
| 训练GPT-5规模（1.8万亿参数） | 2亿美元 | 1.6亿美元 | 4000万美元 |
| 月度推理微调（Meta） | 5000万美元 | 4000万美元 | 1000万美元 |

数据要点： 即使保守采用，也能为大型AI实验室每次训练运行节省数千万美元。对于预算有限的初创公司，这些节省可能意味着生存与失败之间的差别。

该库的开源性质意味着它很可能被广泛采用，从而加速二阶优化在主流深度学习中的应用。随着社区贡献更多优化和适配，我们可能很快看到K-FAC及其变体成为训练大型语言模型和视觉模型的标准工具之一。

时间归档

常见问题

GitHub 热点“Eight Years in the Making: PyTorch Curvature Library Rewrite Could Reshape Deep Learning Optimization”主要讲了什么？

After nearly a decade of iterative work, a dedicated open-source developer has released a complete rewrite of a PyTorch curvature-aware optimization library. The new version addres…

这个 GitHub 项目在“How to use PyTorch curvature optimizer for fine-tuning LLMs”上为什么会引发关注？

The core of the rewrite lies in a fundamental rethinking of how curvature information is computed and stored. The library implements a variant of K-FAC, which approximates the Fisher Information Matrix—a second-order mea…

从“K-FAC vs Adam for large language model training benchmarks 2026”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 0，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。