热力学神经网络：物理学如何成为AI的母语

科学AI的前沿正见证一场深刻的架构革命。多年来，物理信息神经网络（PINNs）一直代表着该领域的最高水平，其方法是将物理定律（通常以偏微分方程形式表达）作为软约束添加到损失函数中。尽管在许多问题上取得了成功，但这种方法存在根本性局限：它可能产生数值上准确但物理上不合理的解，在长时间模拟中违反能量守恒或热力学第二定律等核心原理。这种不稳定性在气候模型或湍流燃烧等混沌系统中尤为棘手，微小的误差会引发灾难性的累积效应。

新兴的解决方案并非更好的训练，而是更好的结构。从标准PINNs到热力学神经网络（TNNs）的演进，标志着从基于惩罚的学习转向归纳性架构偏置的转变。标准PINNs通过最小化复合损失函数运作：`L = L_data + λ * L_physics`。其中，`L_physics`惩罚在配置点上评估的控制方程（如纳维-斯托克斯方程）的残差。超参数`λ`至关重要且常成问题；调参不当会导致模型要么忽略物理规律，要么无法拟合数据。

TNNs则通过架构设计消除了这种平衡难题。目前主要有三种架构范式：拉格朗日神经网络（LNNs）、哈密顿神经网络（HNNs）和端口-哈密顿神经网络（PHNNs）。LNNs学习系统的拉格朗日量`L(q, q̇)`，并通过硬编码到计算图中的欧拉-拉格朗日方程生成运动方程，从而保证学习到的动力学遵循最小作用量原理。HNNs学习哈密顿量`H(p, q)`，并通过哈密顿方程产生动力学，对于不显含时间的哈密顿量能严格保证能量守恒。PHNNs则进一步扩展，纳入了耗散和控制端口，通过`ẋ = (J-R)∇H(x) + g(x)u`的公式直接建模热力学第二定律（熵增）。

性能的关键在于积分方案。将HNN与辛积分器（如Verlet或蛙跳法）配对，能在比非辛方法指数级更长的时间尺度上保持几何结构。在典型物理问题上的基准研究揭示了清晰的权衡：HNNs在封闭保守系统中表现出色，但不天然适用于现实世界的开放系统；PHNNs提供了最全面的物理保真度，但代价是更高的复杂性和计算成本。最佳架构本质上取决于具体问题。

这场由物理学驱动的AI架构变革，正由麻省理工学院Max Tegmark团队、加州理工学院与英伟达的Anima Anandkumar团队、柏林自由大学Frank Noé团队等学术先锋，以及Google DeepMind等机构共同推动，在气候建模、分子动力学、聚变等离子体模拟等领域展现出变革潜力。

技术深度解析

从标准物理信息神经网络（PINNs）到热力学神经网络（TNNs）的技术演进，代表了一种从基于惩罚的学习到归纳性架构偏置的范式转移。标准PINNs通过最小化复合损失函数运作：`L = L_data + λ * L_physics`。其中，`L_physics`惩罚在配置点上评估的控制偏微分方程（例如纳维-斯托克斯方程）的残差。超参数`λ`至关重要且常常带来问题；调参不当会导致模型要么忽略物理规律，要么无法拟合数据。

TNNs则通过构造本身消除了这种平衡难题。目前对比的三种主要架构范式是：

1. 拉格朗日神经网络（LNNs）： 这类网络学习系统的拉格朗日量`L(q, q̇)`（动能 - 势能）。运动方程随后通过欧拉-拉格朗日方程`d/dt(∂L/∂q̇) - ∂L/∂q = 0`生成，该方程被硬编码到网络的计算图中。这保证了学习到的动力学遵循最小作用量原理。
2. 哈密顿神经网络（HNNs）： 这可以说是最具影响力的范式。HNNs学习哈密顿量`H(p, q)`（总能量）。动力学通过哈密顿方程产生：`dq/dt = ∂H/∂p`，`dp/dt = -∂H/∂q`。一个学习`H`的单一网络确保对于不显含时间的哈密顿量，能量是严格守恒的，因为通过代入方程可得`dH/dt = (∂H/∂q)(dq/dt) + (∂H/∂p)(dp/dt) = 0`。
3. 端口-哈密顿神经网络（PHNNs）： 这是一种扩展，纳入了耗散和控制端口，对于现实世界的开放系统至关重要。它们将系统建模为`ẋ = (J-R)∇H(x) + g(x)u`，其中`J`是反对称矩阵（能量守恒），`R`是半正定矩阵（能量耗散），`g(x)u`代表外力。这允许直接建模热力学第二定律（熵产生）。

性能的关键在于积分方案。将HNN与辛积分器（如Verlet或蛙跳法）配对，能在比非辛方法指数级更长的时间尺度上保持几何结构。近期的GitHub仓库生动地展示了这一点：

- `greydanus/hamiltonian-nn`：HNNs的开创性PyTorch实现，拥有超过1.2k星标。它展示了在弹簧和摆系统中完美的能量守恒。
- `mfinzi/constrained-hamiltonian-neural-networks`：将HNNs扩展到带约束的系统，这是分子动力学研究的关键一步。
- `DiffEqFlux.jl` (Julia)：并非单一仓库，而是SciML套件中的一个生态系统。它提供了定义直接表示微分方程的神经网络的工具，实现了物理结构与学习组件的无缝融合。

在经典物理问题上比较这些架构的基准研究揭示了清晰的权衡。

| 架构 | 能量守恒（长时间尺度） | 处理耗散能力 | 数据效率 | 计算开销 |
|---|---|---|---|---|
| 标准PINN | 差（漂移） | 通过损失项手动处理 | 低 | 低 |
| 拉格朗日NN (LNN) | 好（通过构造保证） | 差（需要扩展） | 高 | 中 |
| 哈密顿NN (HNN) | 优秀（对封闭系统精确） | 差（需要扩展） | 高 | 低 |
| 端口-哈密顿NN (PHNN) | 好（建模守恒与损失） | 优秀（内置） | 中 | 高 |
| 图神经网络 (GNN) + 物理 | 可变 | 手动 | 中 | 非常高 |

数据要点： 上表揭示了一个清晰的精度-效率权衡。HNNs在封闭保守系统中表现出色，但不天然适用于现实世界的开放系统。PHNNs提供了最全面的物理保真度，但代价是更高的复杂性和成本。“最佳”架构本质上取决于具体问题。

关键参与者与案例研究

结构化物理AI的发展是由学术实验室、国家研究机构和具有前瞻性的工业研发团队共同推动的。

学术先锋：
- 麻省理工学院Max Tegmark的团队长期倡导能够发现物理理论的AI。他们在“AI物理学家”框架上的工作是TNNs的概念先驱。
- 加州理工学院与英伟达的Anima Anandkumar团队专注于神经算子（如傅里叶神经算子），并日益强调将对称性和守恒定律直接嵌入到这些架构中，用于气候和湍流建模。
- 柏林自由大学Frank Noé的团队将类似原理应用于分子动力学，开发尊重热力学系综的模型，这对药物发现至关重要。
- 像Miles Cranmer（普林斯顿/Flatiron）这样的研究者则推动可解释的、受物理启发的网络组件，主张模型应该输出人类可理解的量，如拉格朗日函数。

企业与机构实践：
- Google DeepMind在“AI for Science”上投入巨资，像AlphaFold这样的项目代表了一种不同但并行的路径。他们利用AI模拟聚变等离子体的工作很可能采用了这些结构化物理AI方法。

时间归档

延伸阅读

常见问题

这次模型发布“Thermodynamic Neural Networks: How Physics Is Becoming AI's Native Language”的核心内容是什么？

The frontier of scientific AI is witnessing a profound architectural revolution. For years, Physics-Informed Neural Networks (PINNs) represented the state of the art, treating phys…

从“how do thermodynamic neural networks guarantee energy conservation compared to PINNs”看，这个模型发布为什么重要？

The technical evolution from standard PINNs to Thermodynamic Neural Networks (TNNs) represents a shift from penalty-based learning to inductive architectural bias. Standard PINNs operate by minimizing a composite loss: L…

围绕“what are the practical applications of Hamiltonian neural networks in scientific computing”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。