热力学神经网络:物理学如何成为AI的母语

arXiv cs.LG March 2026
来源:arXiv cs.LG归档:March 2026
人工智能与物理学的关系正在经历根本性变革。这一领域正超越仅将物理方程作为约束条件的传统范式,转向构建其架构本身便诞生于热力学原理的神经网络。这场变革预示着AI将不再仅仅是近似模拟物理,而是内在地掌握其语言,从而实现对复杂系统的可靠仿真。

科学AI的前沿正见证一场深刻的架构革命。多年来,物理信息神经网络(PINNs)一直代表着该领域的最高水平,其方法是将物理定律(通常以偏微分方程形式表达)作为软约束添加到损失函数中。尽管在许多问题上取得了成功,但这种方法存在根本性局限:它可能产生数值上准确但物理上不合理的解,在长时间模拟中违反能量守恒或热力学第二定律等核心原理。这种不稳定性在气候模型或湍流燃烧等混沌系统中尤为棘手,微小的误差会引发灾难性的累积效应。

新兴的解决方案并非更好的训练,而是更好的结构。从标准PINNs到热力学神经网络(TNNs)的演进,标志着从基于惩罚的学习转向归纳性架构偏置的转变。标准PINNs通过最小化复合损失函数运作:`L = L_data + λ * L_physics`。其中,`L_physics`惩罚在配置点上评估的控制方程(如纳维-斯托克斯方程)的残差。超参数`λ`至关重要且常成问题;调参不当会导致模型要么忽略物理规律,要么无法拟合数据。

TNNs则通过架构设计消除了这种平衡难题。目前主要有三种架构范式:拉格朗日神经网络(LNNs)、哈密顿神经网络(HNNs)和端口-哈密顿神经网络(PHNNs)。LNNs学习系统的拉格朗日量`L(q, q̇)`,并通过硬编码到计算图中的欧拉-拉格朗日方程生成运动方程,从而保证学习到的动力学遵循最小作用量原理。HNNs学习哈密顿量`H(p, q)`,并通过哈密顿方程产生动力学,对于不显含时间的哈密顿量能严格保证能量守恒。PHNNs则进一步扩展,纳入了耗散和控制端口,通过`ẋ = (J-R)∇H(x) + g(x)u`的公式直接建模热力学第二定律(熵增)。

性能的关键在于积分方案。将HNN与辛积分器(如Verlet或蛙跳法)配对,能在比非辛方法指数级更长的时间尺度上保持几何结构。在典型物理问题上的基准研究揭示了清晰的权衡:HNNs在封闭保守系统中表现出色,但不天然适用于现实世界的开放系统;PHNNs提供了最全面的物理保真度,但代价是更高的复杂性和计算成本。最佳架构本质上取决于具体问题。

这场由物理学驱动的AI架构变革,正由麻省理工学院Max Tegmark团队、加州理工学院与英伟达的Anima Anandkumar团队、柏林自由大学Frank Noé团队等学术先锋,以及Google DeepMind等机构共同推动,在气候建模、分子动力学、聚变等离子体模拟等领域展现出变革潜力。

技术深度解析

从标准物理信息神经网络(PINNs)到热力学神经网络(TNNs)的技术演进,代表了一种从基于惩罚的学习到归纳性架构偏置的范式转移。标准PINNs通过最小化复合损失函数运作:`L = L_data + λ * L_physics`。其中,`L_physics`惩罚在配置点上评估的控制偏微分方程(例如纳维-斯托克斯方程)的残差。超参数`λ`至关重要且常常带来问题;调参不当会导致模型要么忽略物理规律,要么无法拟合数据。

TNNs则通过构造本身消除了这种平衡难题。目前对比的三种主要架构范式是:

1. 拉格朗日神经网络(LNNs): 这类网络学习系统的拉格朗日量`L(q, q̇)`(动能 - 势能)。运动方程随后通过欧拉-拉格朗日方程`d/dt(∂L/∂q̇) - ∂L/∂q = 0`生成,该方程被硬编码到网络的计算图中。这保证了学习到的动力学遵循最小作用量原理。
2. 哈密顿神经网络(HNNs): 这可以说是最具影响力的范式。HNNs学习哈密顿量`H(p, q)`(总能量)。动力学通过哈密顿方程产生:`dq/dt = ∂H/∂p`,`dp/dt = -∂H/∂q`。一个学习`H`的单一网络确保对于不显含时间的哈密顿量,能量是严格守恒的,因为通过代入方程可得`dH/dt = (∂H/∂q)(dq/dt) + (∂H/∂p)(dp/dt) = 0`。
3. 端口-哈密顿神经网络(PHNNs): 这是一种扩展,纳入了耗散和控制端口,对于现实世界的开放系统至关重要。它们将系统建模为`ẋ = (J-R)∇H(x) + g(x)u`,其中`J`是反对称矩阵(能量守恒),`R`是半正定矩阵(能量耗散),`g(x)u`代表外力。这允许直接建模热力学第二定律(熵产生)。

性能的关键在于积分方案。将HNN与辛积分器(如Verlet或蛙跳法)配对,能在比非辛方法指数级更长的时间尺度上保持几何结构。近期的GitHub仓库生动地展示了这一点:

- `greydanus/hamiltonian-nn`:HNNs的开创性PyTorch实现,拥有超过1.2k星标。它展示了在弹簧和摆系统中完美的能量守恒。
- `mfinzi/constrained-hamiltonian-neural-networks`:将HNNs扩展到带约束的系统,这是分子动力学研究的关键一步。
- `DiffEqFlux.jl` (Julia):并非单一仓库,而是SciML套件中的一个生态系统。它提供了定义直接表示微分方程的神经网络的工具,实现了物理结构与学习组件的无缝融合。

在经典物理问题上比较这些架构的基准研究揭示了清晰的权衡。

| 架构 | 能量守恒(长时间尺度) | 处理耗散能力 | 数据效率 | 计算开销 |
|---|---|---|---|---|
| 标准PINN | 差(漂移) | 通过损失项手动处理 | 低 | 低 |
| 拉格朗日NN (LNN) | 好(通过构造保证) | 差(需要扩展) | 高 | 中 |
| 哈密顿NN (HNN) | 优秀(对封闭系统精确) | 差(需要扩展) | 高 | 低 |
| 端口-哈密顿NN (PHNN) | 好(建模守恒与损失) | 优秀(内置) | 中 | 高 |
| 图神经网络 (GNN) + 物理 | 可变 | 手动 | 中 | 非常高 |

数据要点: 上表揭示了一个清晰的精度-效率权衡。HNNs在封闭保守系统中表现出色,但不天然适用于现实世界的开放系统。PHNNs提供了最全面的物理保真度,但代价是更高的复杂性和成本。“最佳”架构本质上取决于具体问题。

关键参与者与案例研究

结构化物理AI的发展是由学术实验室、国家研究机构和具有前瞻性的工业研发团队共同推动的。

学术先锋:
- 麻省理工学院Max Tegmark的团队长期倡导能够发现物理理论的AI。他们在“AI物理学家”框架上的工作是TNNs的概念先驱。
- 加州理工学院与英伟达的Anima Anandkumar团队专注于神经算子(如傅里叶神经算子),并日益强调将对称性和守恒定律直接嵌入到这些架构中,用于气候和湍流建模。
- 柏林自由大学Frank Noé的团队将类似原理应用于分子动力学,开发尊重热力学系综的模型,这对药物发现至关重要。
- 像Miles Cranmer(普林斯顿/Flatiron)这样的研究者则推动可解释的、受物理启发的网络组件,主张模型应该输出人类可理解的量,如拉格朗日函数。

企业与机构实践:
- Google DeepMind在“AI for Science”上投入巨资,像AlphaFold这样的项目代表了一种不同但并行的路径。他们利用AI模拟聚变等离子体的工作很可能采用了这些结构化物理AI方法。

更多来自 arXiv cs.LG

RL-Kirigami:AI逆向设计解锁可编程超材料,从试错到智能制造的范式革命研究人员开发了RL-Kirigami框架,该框架将最优传输条件流匹配与强化学习相结合,解决了剪纸结构的逆向设计问题。剪纸——切割和折叠纸张的艺术——长期以来一直是创建可编程形状变形超材料的强大方法。然而,其逆向设计——找到能产生所需目标形状SPLICE:扩散模型迎来置信区间,时间序列插补从此可靠可证时间序列数据是现代基础设施的命脉——从电力负荷预测到金融风险建模,无所不包。然而,缺失值始终是一个顽固且致命的难题。从简单的插值到先进的生成模型,传统插补方法只能给出点估计,无法提供任何不确定性度量。对于一位需要根据预测的负荷峰值决定是否启Soft-MSM:让时间序列真正理解上下文的弹性对齐革命数十年来,动态时间规整(DTW)及其可微分变体 Soft-DTW 一直是处理局部时间错位的时间序列对齐的主力工具。然而,Soft-DTW 存在一个根本性缺陷:其 soft-minimum 松弛将所有规整路径视为同等有效,忽略了序列拉伸与压缩查看来源专题页arXiv cs.LG 已收录 112 篇文章

时间归档

March 20262347 篇已发布文章

延伸阅读

流学习者崛起:物理到物理AI如何颠覆科学模拟范式一类名为“流学习者”的新型AI模型正突破传统神经PDE求解器的根本局限。通过直接学习物理状态间的映射关系而非拟合离散数据点,这种“物理到物理”范式有望实现以往仅超级计算机才能完成的高保真实时模拟,或将引发堪比Transformer的革命浪潮最小作用量学习:AI如何通过能量约束从噪声数据中发现物理定律一项名为“最小作用量学习”的新型AI框架,正在引发科学机器学习领域的范式变革。该系统通过最小化一个融合数据拟合、模型简洁性与能量守恒等物理约束的“三重作用量泛函”,能够以前所未有的精度从高度噪声数据中识别出基础物理定律。RL-Kirigami:AI逆向设计解锁可编程超材料,从试错到智能制造的范式革命一种名为RL-Kirigami的新型AI框架攻克了剪纸结构逆向设计的难题,实现了切割图案的全自动生成,可直接输入激光切割机进行快速原型制作。这标志着可编程超材料的设计从人工试错向AI驱动的范式转变。SPLICE:扩散模型迎来置信区间,时间序列插补从此可靠可证SPLICE 提出了一种模块化框架,将潜在扩散生成与无分布假设的共形预测相结合,为每个插补的时间序列值动态更新置信区间。这标志着生成式插补从追求精度转向可证明的可靠性,对于电网调度等高 stakes 应用而言,堪称颠覆性变革。

常见问题

这次模型发布“Thermodynamic Neural Networks: How Physics Is Becoming AI's Native Language”的核心内容是什么?

The frontier of scientific AI is witnessing a profound architectural revolution. For years, Physics-Informed Neural Networks (PINNs) represented the state of the art, treating phys…

从“how do thermodynamic neural networks guarantee energy conservation compared to PINNs”看,这个模型发布为什么重要?

The technical evolution from standard PINNs to Thermodynamic Neural Networks (TNNs) represents a shift from penalty-based learning to inductive architectural bias. Standard PINNs operate by minimizing a composite loss: L…

围绕“what are the practical applications of Hamiltonian neural networks in scientific computing”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。