FormalScience：人类反馈如何教会AI用严谨语言“说”物理

2026年4月28日 12:09 AINews arXiv cs.AI April 2026

来源：arXiv cs.AI 归档：April 2026

当大语言模型在狄拉克符号、张量微积分等专业物理记号面前频频“翻车”，FormalScience 提出了一种人机协作框架：通过将模糊的物理语言转化为机器可验证的 Lean 代码，并引入实时专家纠错，它让 AI 从“语法模仿”走向“语义理解”，为自动化定理验证铺平了道路。

FormalScience 项目标志着人工智能与形式科学交互方式的关键转折。尽管大语言模型在生成数学散文方面展现出惊人的流畅性，但在将领域特定的物理符号——狄拉克括号、协变导数、旋量指标——精确翻译为可执行、可验证的代码时，它们始终力不从心。其根本原因并非语法知识的匮乏，而是语义根基的缺失：模型并不“理解”bra-ket 表示具有特定线性约束的内积，也不明白广义相对论中的偏导数必须考虑克里斯托费尔联络。

FormalScience 通过构建一个多智能体系统直接解决了这一问题。该系统将自然语言物理陈述分解为抽象语义图（ASG），再由专门的 Lean 代码生成器将其映射为候选翻译，最后通过人类专家的实时反馈进行纠错与优化。这一“人在回路”的设计将每次陈述的人工干预时间从数小时压缩至数分钟，并在量子力学和广义相对论测试集上实现了 78% 和 71% 的首次正确率——相比零样本大语言模型提升了 5 倍。项目团队已开源部分训练数据和 Lean 代码生成器，为物理学的形式化验证提供了全新范式。

技术深度解析

FormalScience 的架构摒弃了端到端的神经翻译模式，转而采用模块化、智能体驱动的流水线，包含三个核心组件：

1. 语义分解器：一个基于 LLaMA-3-70B 架构微调的大语言模型，负责将自然语言的物理陈述解析为抽象语义图（ASG）。图中的每个节点代表一个物理实体（如“电子态”、“度规张量”），边表示操作（如“内积”、“协变导数”）。ASG 并非语法解析树，它编码了物理量纲和对称性约束。

2. Lean 代码生成器：一个专门的 Transformer 模型，训练语料来自 Mathlib4 仓库中约 50,000 个经过验证的 Lean 4 证明，并补充了 8,000 个物理学特定证明（例如薛定谔方程幺正性的证明、广义相对论中的比安基恒等式）。该模型将每个 ASG 节点映射为 Lean 表达式，但输出的是带有置信度分数的一组候选翻译。

3. 人类反馈接口：系统通过轻量级 Web UI 向人类专家展示每个歧义节点的前 3 个候选翻译。专家选择正确选项或提供文本修正。这些反馈被记录并用于通过强化学习（具体来说是针对结构化输出调整的 RLHF 变体）对语义分解器进行微调。

关键创新：反馈循环并非作用于最终输出，而是作用于中间语义决策。这大幅降低了每段陈述所需的人力——从数小时的代码调试缩减为数分钟的语义验证。

基准测试表现：该项目在来自量子力学和广义相对论教科书的 200 条物理陈述测试集上进行了评估。指标为“首次尝试正确率”——即无需任何人工修正的陈述比例。

| 模型 | 量子力学陈述（n=100） | 广义相对论陈述（n=100） | 平均人工干预次数 | 平均每段陈述耗时 |
|---|---|---|---|---|
| GPT-4o（零样本） | 12% | 8% | 4.2 | 35 分钟 |
| Claude 3.5 Sonnet（零样本） | 15% | 10% | 3.8 | 28 分钟 |
| FormalScience（无反馈） | 34% | 29% | 2.1 | 12 分钟 |
| FormalScience（带反馈） | 78% | 71% | 0.4 | 8 分钟 |

数据要点：“人在回路”方法使首次尝试正确率相比零样本大语言模型提升了 5 倍，并将所需人工干预次数降低了一个数量级。在广义相对论陈述上 71% 的成功率尤为突出，考虑到张量指标操作的复杂性。

相关开源项目：团队已在 GitHub 上以 `formal-science-tools` 仓库发布了部分训练数据和 Lean 代码生成器（目前约 1200 星）。其中包含一个用于常见物理操作的 Lean 4 策略库（例如 `dirac_bra`、`christoffel_simplify`），社区可对其进行扩展。

关键参与者与案例研究

FormalScience 项目由剑桥大学应用数学与理论物理系和马克斯·普朗克光科学研究所的跨机构团队领导。首席研究员是 Elena Vogt 博士，一位理论物理学家，此前曾为 Lean 社区对阿蒂亚-辛格指标定理的形式化做出贡献。工程负责人是 Anish Patel 博士，曾任 DeepMind 数学团队研究科学家，参与过 AlphaProof 系统的工作。

竞争方法：多项计划致力于物理学的形式化，但它们在理念上有所不同。

| 系统 | 方法 | 人类角色 | 范围 | 成熟度 |
|---|---|---|---|---|
| FormalScience | 智能体分解 + 人类反馈 | 语义验证者 | 量子力学、广义相对论、量子场论 | 研究原型 |
| LeanDojo（斯坦福） | 基于 Mathlib 的检索增强生成 | 证明助手 | 通用数学 | 生产级（10000+ 星） |
| AlphaProof（DeepMind） | 基于证明搜索的强化学习 | 无 | 奥赛数学 | 研究阶段 |
| Isabelle/HOL 形式证明档案 | 手动形式化 | 完整证明作者 | 通用数学 | 生产级 |

数据要点：FormalScience 占据了一个独特的生态位——它是唯一专门为物理符号设计的系统，也是唯一将人类反馈视为翻译过程的一等组件（而非仅仅是调试工具）的系统。

案例研究：狄拉克 delta 函数：一个众所周知的难题是将狄拉克 delta“函数”形式化为一个分布。零样本大语言模型常常生成将其视为逐点函数的 Lean 代码，导致矛盾。FormalScience 的语义分解器正确将其识别为 Schwartz 分布，并映射到 Lean 的 `Distribution` 类型（来自 `analysis/calculus/` 库）。在测试中，该特定案例平均仅需 0.2 次人工干预，而 GPT-4o 需要 3.5 次。

行业影响与市场动态

FormalScience 解决了一个长期限制 AI 在形式科学领域发挥作用的瓶颈。

时间归档

常见问题

GitHub 热点“FormalScience: How Human Feedback Teaches AI to Speak Physics with Rigor”主要讲了什么？

The FormalScience project marks a pivotal shift in how artificial intelligence engages with formal science. While large language models have demonstrated remarkable fluency in gene…

这个 GitHub 项目在“FormalScience Lean physics formalization tutorial”上为什么会引发关注？

FormalScience's architecture is a departure from end-to-end neural translation. Instead, it employs a modular, agentic pipeline with three core components: 1. Semantic Decomposer: A fine-tuned LLM (based on the LLaMA-3-7…

从“FormalScience vs LeanDojo for quantum mechanics”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 0，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。