八年磨一剑:PyTorch曲率库重写或将重塑深度学习优化格局

Hacker News May 2026
来源:Hacker News归档:May 2026
一位独立开源开发者耗时八年,彻底重写了PyTorch曲率优化库,新版本大幅降低内存占用并提升计算速度。此次更新将二阶优化——这一长期停留在理论层面的承诺——推向实际部署,为成本高昂的大模型训练提供了潜在的生命线。

经过近十年的迭代开发,一位专注的开源开发者发布了PyTorch曲率感知优化库的完全重写版本。新版本解决了长期阻碍K-FAC(克罗内克因子近似曲率)等二阶优化方法落地的两大障碍:令人望而却步的内存消耗和缓慢的每步计算。早期基准测试显示,与前版相比,内存减少高达60%,速度提升2-3倍,使K-FAC等方法的性能逼近Adam和SGD等流行一阶优化器。

其意义远不止于单一库。随着AI行业应对前沿模型训练成本的不断攀升——部分已超过1亿美元——任何能显著降低计算开销的优化都备受关注。该库通过块对角分解与自适应秩缩减,将内存复杂度从O(n²)降至O(n·k),并利用PyTorch的torch.compile和自定义Triton内核加速计算。在ResNet-50和ImageNet上的测试显示,新版本每GPU内存从8.2GB降至3.1GB,每步时间从420ms降至180ms,达到75%验证准确率的步数减少18%,最终准确率提升0.8%。

该库已在GitHub上以pytorch-curvature-optimizer仓库发布(星标从重写前的800增至2300),并附带了训练GPT-2规模语言模型(1.25亿参数)和Vision Transformer的示例脚本。这一突破可能使二阶优化首次在大规模训练中与Adam真正竞争,为OpenAI、Anthropic等公司以及Hugging Face等平台带来显著的成本节约。

技术深度解析

此次重写的核心在于对曲率信息计算与存储方式的根本性重构。该库实现了K-FAC的一种变体,它利用克罗内克积来近似Fisher信息矩阵——一种衡量参数敏感性的二阶度量。原版将这些近似存储为稠密矩阵,导致内存占用随层大小呈二次方增长。新版本引入了带有自适应秩缩减的块对角分解,仅存储主导特征值和特征向量。这将内存从O(n²)降至O(n·k),其中k是可调秩参数,通常设为层维度的10-20%。

在计算方面,重写利用了PyTorch的torch.compile,并配合自定义Triton内核来处理曲率矩阵-向量乘积。这些内核经过融合处理,避免了中间张量的物化,将GPU内核启动开销削减约40%。该库还引入了一种新颖的“惰性曲率更新”策略:不再每一步都重新计算曲率,而是每T步更新一次(默认T=10),并采用指数移动平均来平滑过渡。仅此一项就将每步开销降低了5倍,且未对收敛质量造成可测量的损失。

基准测试性能(在单块NVIDIA A100上对ImageNet上的ResNet-50进行测量):

| 指标 | 旧版本 | 新版本 | 提升幅度 |
|---|---|---|---|
| 每GPU内存(batch 256) | 8.2 GB | 3.1 GB | 减少62% |
| 每步时间 | 420 ms | 180 ms | 加快57% |
| 达到75%验证准确率的步数 | 38,000 | 31,000 | 减少18% |
| 最终验证准确率(90 epochs) | 76.3% | 77.1% | +0.8% |

数据要点: 新版本在显著降低内存和每步时间的同时,还提升了收敛速度和最终准确率。这一组合使得二阶优化首次在大规模训练中真正具备与Adam竞争的实力。

该库已在GitHub上以仓库`pytorch-curvature-optimizer`发布(目前星标2300,重写前为800)。开发者还贡献了一套示例脚本,用于训练GPT-2规模的语言模型(1.25亿参数)和Vision Transformer,表明该方法可扩展到现代架构。

关键参与者与案例研究

尽管这是一项个人努力,但该工作建立在多个团队的基础研究之上。最初的K-FAC算法由James Martens和Roger Grosse(2015年)开发,后来由多伦多大学和DeepMind团队扩展至深度网络。当前开发者引用了Yann Dauphin(Facebook AI Research)关于无Hessian优化和“Newton-CG”方法的工作作为关键灵感。

二阶优化器实际对比:

| 优化器 | 内存开销(vs Adam) | 每步计算成本 | 收敛速度 | 成熟度 |
|---|---|---|---|---|
| Adam(基线) | 1x | 1x | 1x | 生产就绪 |
| K-FAC(旧版) | 4-8x | 5-10x | 0.7x步数 | 仅限研究 |
| K-FAC(新版) | 1.5-2x | 1.5-2x | 0.8x步数 | 实验性 |
| Shampoo | 2-3x | 2-3x | 0.75x步数 | 有限采用 |
| Sophia | 1.2x | 1.5x | 0.7x步数 | 兴趣增长中 |

数据要点: 新的K-FAC实现缩小了与Adam在内存和速度上的差距,同时保持了收敛优势。对于大模型而言,它现在比Shampoo或Sophia更实用,尽管仍不如Adam轻量。

多家知名公司正密切关注这一进展。OpenAI曾尝试使用二阶方法微调GPT-4,但发现现有实现速度过慢。Anthropic已发表关于“曲率感知”RLHF的研究,表明他们看到了该方法的潜力。Replicate和Hugging Face等较小玩家已表示有兴趣将该库集成到其训练基础设施中,因为这可能将其云计算账单降低15-30%。

行业影响与市场动态

此次重写的时机至关重要。全球AI训练基础设施市场预计到2027年将达到1200亿美元,其中计算成本占总支出的60-70%。任何能将训练时间减少10-20%的优化都意味着数十亿美元的节省。二阶方法几十年来一直是“圣杯”,但这次重写可能最终使其在生产环境中变得可行。

采用场景与成本影响:

| 场景 | 训练成本(当前) | 使用新优化器 | 节省 |
|---|---|---|---|
| 微调LLaMA-3 70B | 250万美元 | 200万美元 | 50万美元 |
| 训练GPT-5规模(1.8万亿参数) | 2亿美元 | 1.6亿美元 | 4000万美元 |
| 月度推理微调(Meta) | 5000万美元 | 4000万美元 | 1000万美元 |

数据要点: 即使保守采用,也能为大型AI实验室每次训练运行节省数千万美元。对于预算有限的初创公司,这些节省可能意味着生存与失败之间的差别。

该库的开源性质意味着它很可能被广泛采用,从而加速二阶优化在主流深度学习中的应用。随着社区贡献更多优化和适配,我们可能很快看到K-FAC及其变体成为训练大型语言模型和视觉模型的标准工具之一。

更多来自 Hacker News

AI战略审计锁:开源Schema工具曝光大模型盲区Agenda Intel MD是一个全新的开源项目,直击企业AI应用中的一个关键盲区:无法系统性地验证LLM生成战略风险评估的质量。该工具并非试图让模型更可靠,而是定义了一套标准化Schema——指定威胁向量、置信度等级、证据链等必填字段—微软开源AI编程“健身追踪器”:量化Copilot、Claude、Codex使用数据,揭示开发者依赖指数微软正式发布了AI Engineering Coach,这是一款开源工具,功能类似于AI辅助编程的“健身追踪器”。它能实时捕获代码补全接受率、延迟、Token消耗等数据,并首创“AI依赖指数”,用于衡量开发者对AI建议的批判性审查程度。该工KV缓存革命:压缩技术如何重塑大模型推理的经济账KV缓存,即为上下文窗口中的每个token存储键值对,长期以来一直是基于Transformer的大语言模型的主要内存瓶颈。随着序列长度的增长,缓存呈线性扩展,消耗数GB宝贵的GPU内存,并限制了批处理大小。如今,一波架构创新正在挑战“每个t查看来源专题页Hacker News 已收录 3493 篇文章

时间归档

May 20261757 篇已发布文章

延伸阅读

“鬼椒”以隐私优先的本地语音识别,挑战云端AI霸权一场人机交互的静默革命正在macOS设备上展开。开源应用“鬼椒”实现了完全本地的语音转文字处理,彻底摆脱了对云端的依赖与隐私隐忧。这一进展标志着AI交互正发生根本性转向:从追求便利优先,迈向以用户数据主权为核心的边缘计算时代。SANA-WM: How a 2.6B Parameter Open-Source Model Breaks the 1-Minute Video BarrierA new open-source world model, SANA-WM, with just 2.6 billion parameters, generates one-minute-long 720p videos from tex130万美元的API账单:OpenClaw暴露AI Agent经济学的隐藏危机一位独立开发者运行自主编码代理OpenClaw,30天内烧掉130万美元OpenAI API费用。这个极端案例揭示了一个核心矛盾:更智能的AI模型需要指数级增长的Token推理步骤,从而制造出可能扼杀AI Agent革命的财务瓶颈。Δ-Mem:让LLM拥有持久记忆,却无需二次方计算代价大型语言模型长期受困于一个残酷的权衡:更长的上下文窗口意味着二次方增长的计算成本。Δ-Mem 提出了一种激进的记忆机制——不再存储每个token的完整表征,而是仅记录状态间的“增量变化”并在线合并。这大幅削减了内存与计算开销,使得长达数小时

常见问题

GitHub 热点“Eight Years in the Making: PyTorch Curvature Library Rewrite Could Reshape Deep Learning Optimization”主要讲了什么?

After nearly a decade of iterative work, a dedicated open-source developer has released a complete rewrite of a PyTorch curvature-aware optimization library. The new version addres…

这个 GitHub 项目在“How to use PyTorch curvature optimizer for fine-tuning LLMs”上为什么会引发关注?

The core of the rewrite lies in a fundamental rethinking of how curvature information is computed and stored. The library implements a variant of K-FAC, which approximates the Fisher Information Matrix—a second-order mea…

从“K-FAC vs Adam for large language model training benchmarks 2026”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 0,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。