八年磨一剑:PyTorch曲率库重写或将重塑深度学习优化格局

Hacker News May 2026
来源:Hacker News归档:May 2026
一位独立开源开发者耗时八年,彻底重写了PyTorch曲率优化库,新版本大幅降低内存占用并提升计算速度。此次更新将二阶优化——这一长期停留在理论层面的承诺——推向实际部署,为成本高昂的大模型训练提供了潜在的生命线。

经过近十年的迭代开发,一位专注的开源开发者发布了PyTorch曲率感知优化库的完全重写版本。新版本解决了长期阻碍K-FAC(克罗内克因子近似曲率)等二阶优化方法落地的两大障碍:令人望而却步的内存消耗和缓慢的每步计算。早期基准测试显示,与前版相比,内存减少高达60%,速度提升2-3倍,使K-FAC等方法的性能逼近Adam和SGD等流行一阶优化器。

其意义远不止于单一库。随着AI行业应对前沿模型训练成本的不断攀升——部分已超过1亿美元——任何能显著降低计算开销的优化都备受关注。该库通过块对角分解与自适应秩缩减,将内存复杂度从O(n²)降至O(n·k),并利用PyTorch的torch.compile和自定义Triton内核加速计算。在ResNet-50和ImageNet上的测试显示,新版本每GPU内存从8.2GB降至3.1GB,每步时间从420ms降至180ms,达到75%验证准确率的步数减少18%,最终准确率提升0.8%。

该库已在GitHub上以pytorch-curvature-optimizer仓库发布(星标从重写前的800增至2300),并附带了训练GPT-2规模语言模型(1.25亿参数)和Vision Transformer的示例脚本。这一突破可能使二阶优化首次在大规模训练中与Adam真正竞争,为OpenAI、Anthropic等公司以及Hugging Face等平台带来显著的成本节约。

技术深度解析

此次重写的核心在于对曲率信息计算与存储方式的根本性重构。该库实现了K-FAC的一种变体,它利用克罗内克积来近似Fisher信息矩阵——一种衡量参数敏感性的二阶度量。原版将这些近似存储为稠密矩阵,导致内存占用随层大小呈二次方增长。新版本引入了带有自适应秩缩减的块对角分解,仅存储主导特征值和特征向量。这将内存从O(n²)降至O(n·k),其中k是可调秩参数,通常设为层维度的10-20%。

在计算方面,重写利用了PyTorch的torch.compile,并配合自定义Triton内核来处理曲率矩阵-向量乘积。这些内核经过融合处理,避免了中间张量的物化,将GPU内核启动开销削减约40%。该库还引入了一种新颖的“惰性曲率更新”策略:不再每一步都重新计算曲率,而是每T步更新一次(默认T=10),并采用指数移动平均来平滑过渡。仅此一项就将每步开销降低了5倍,且未对收敛质量造成可测量的损失。

基准测试性能(在单块NVIDIA A100上对ImageNet上的ResNet-50进行测量):

| 指标 | 旧版本 | 新版本 | 提升幅度 |
|---|---|---|---|
| 每GPU内存(batch 256) | 8.2 GB | 3.1 GB | 减少62% |
| 每步时间 | 420 ms | 180 ms | 加快57% |
| 达到75%验证准确率的步数 | 38,000 | 31,000 | 减少18% |
| 最终验证准确率(90 epochs) | 76.3% | 77.1% | +0.8% |

数据要点: 新版本在显著降低内存和每步时间的同时,还提升了收敛速度和最终准确率。这一组合使得二阶优化首次在大规模训练中真正具备与Adam竞争的实力。

该库已在GitHub上以仓库`pytorch-curvature-optimizer`发布(目前星标2300,重写前为800)。开发者还贡献了一套示例脚本,用于训练GPT-2规模的语言模型(1.25亿参数)和Vision Transformer,表明该方法可扩展到现代架构。

关键参与者与案例研究

尽管这是一项个人努力,但该工作建立在多个团队的基础研究之上。最初的K-FAC算法由James Martens和Roger Grosse(2015年)开发,后来由多伦多大学和DeepMind团队扩展至深度网络。当前开发者引用了Yann Dauphin(Facebook AI Research)关于无Hessian优化和“Newton-CG”方法的工作作为关键灵感。

二阶优化器实际对比:

| 优化器 | 内存开销(vs Adam) | 每步计算成本 | 收敛速度 | 成熟度 |
|---|---|---|---|---|
| Adam(基线) | 1x | 1x | 1x | 生产就绪 |
| K-FAC(旧版) | 4-8x | 5-10x | 0.7x步数 | 仅限研究 |
| K-FAC(新版) | 1.5-2x | 1.5-2x | 0.8x步数 | 实验性 |
| Shampoo | 2-3x | 2-3x | 0.75x步数 | 有限采用 |
| Sophia | 1.2x | 1.5x | 0.7x步数 | 兴趣增长中 |

数据要点: 新的K-FAC实现缩小了与Adam在内存和速度上的差距,同时保持了收敛优势。对于大模型而言,它现在比Shampoo或Sophia更实用,尽管仍不如Adam轻量。

多家知名公司正密切关注这一进展。OpenAI曾尝试使用二阶方法微调GPT-4,但发现现有实现速度过慢。Anthropic已发表关于“曲率感知”RLHF的研究,表明他们看到了该方法的潜力。Replicate和Hugging Face等较小玩家已表示有兴趣将该库集成到其训练基础设施中,因为这可能将其云计算账单降低15-30%。

行业影响与市场动态

此次重写的时机至关重要。全球AI训练基础设施市场预计到2027年将达到1200亿美元,其中计算成本占总支出的60-70%。任何能将训练时间减少10-20%的优化都意味着数十亿美元的节省。二阶方法几十年来一直是“圣杯”,但这次重写可能最终使其在生产环境中变得可行。

采用场景与成本影响:

| 场景 | 训练成本(当前) | 使用新优化器 | 节省 |
|---|---|---|---|
| 微调LLaMA-3 70B | 250万美元 | 200万美元 | 50万美元 |
| 训练GPT-5规模(1.8万亿参数) | 2亿美元 | 1.6亿美元 | 4000万美元 |
| 月度推理微调(Meta) | 5000万美元 | 4000万美元 | 1000万美元 |

数据要点: 即使保守采用,也能为大型AI实验室每次训练运行节省数千万美元。对于预算有限的初创公司,这些节省可能意味着生存与失败之间的差别。

该库的开源性质意味着它很可能被广泛采用,从而加速二阶优化在主流深度学习中的应用。随着社区贡献更多优化和适配,我们可能很快看到K-FAC及其变体成为训练大型语言模型和视觉模型的标准工具之一。

更多来自 Hacker News

AI重塑工作:增强型员工崛起,传统岗位终结将AI视为工作杀手的故事是一种危险的过度简化。我们对企业采用大语言模型(LLM)和智能体系统的调查揭示了一场更为微妙且深刻的变革:工作本身的结构性重新定义。像Klarna这样的公司——其公开宣称AI助手处理了700名全职客服代表的工作——并Claude Fable 5 全球首发:Anthropic 押注深度推理,逆势挑战多模态热潮Anthropic 即将面向全球发布其前沿模型 Claude Fable 5,该模型将推理深度置于广度之上,标志着一次明确的技术路线选择。Fable 5 集成了增强型思维链架构与精炼的安全层,能够在法律文件、金融模型与科学论文中执行多步逻辑13岁少年用AI三周做出游戏:学习曲线已被抹平,谁在重新定义“开发者”今年暑假,一位13岁的开发者利用AI驱动工具链,独立完成了一款复古风格动作角色扮演游戏《The Sword of Ghix》的第一章。他的开发流水线是:VSCode集成Anthropic的Claude Code与Godot MCP。这套工具查看来源专题页Hacker News 已收录 5490 篇文章

时间归档

May 20263028 篇已发布文章

延伸阅读

Pulse 应用:将 Claude Code 控制权装入口袋——学生项目重新定义 AI 代理监督一位佛兰德斯学生发布了 Pulse,这是一个本地仪表盘,能将 Claude Code 的终端操作实时传输到移动界面,让开发者通过手机批准或拒绝每一次工具调用。这个开源项目通过让每个操作透明且可中断,直击自主 AI 代理的核心信任问题。“鬼椒”以隐私优先的本地语音识别,挑战云端AI霸权一场人机交互的静默革命正在macOS设备上展开。开源应用“鬼椒”实现了完全本地的语音转文字处理,彻底摆脱了对云端的依赖与隐私隐忧。这一进展标志着AI交互正发生根本性转向:从追求便利优先,迈向以用户数据主权为核心的边缘计算时代。AI重塑工作:增强型员工崛起,传统岗位终结生成式AI并非通过取代员工来改写现代职场DNA,而是拆解并重组工作职能。这篇深度分析揭示了“增强型员工”的涌现,以及组织价值衡量标准从人头数向产出量的结构性转变。Claude Fable 5 全球首发:Anthropic 押注深度推理,逆势挑战多模态热潮Anthropic 将于明日全球同步发布 Claude Fable 5,这是一次战略性的转向:从追逐多模态能力,回归到对深度推理的极致打磨。凭借 20 万以上的 Token 上下文窗口与增强的思维链机制,该模型直指法律、金融与科研领域的复杂

常见问题

GitHub 热点“Eight Years in the Making: PyTorch Curvature Library Rewrite Could Reshape Deep Learning Optimization”主要讲了什么?

After nearly a decade of iterative work, a dedicated open-source developer has released a complete rewrite of a PyTorch curvature-aware optimization library. The new version addres…

这个 GitHub 项目在“How to use PyTorch curvature optimizer for fine-tuning LLMs”上为什么会引发关注?

The core of the rewrite lies in a fundamental rethinking of how curvature information is computed and stored. The library implements a variant of K-FAC, which approximates the Fisher Information Matrix—a second-order mea…

从“K-FAC vs Adam for large language model training benchmarks 2026”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 0,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。