FormalScience:人类反馈如何教会AI用严谨语言“说”物理

arXiv cs.AI April 2026
来源:arXiv cs.AI归档:April 2026
当大语言模型在狄拉克符号、张量微积分等专业物理记号面前频频“翻车”,FormalScience 提出了一种人机协作框架:通过将模糊的物理语言转化为机器可验证的 Lean 代码,并引入实时专家纠错,它让 AI 从“语法模仿”走向“语义理解”,为自动化定理验证铺平了道路。

FormalScience 项目标志着人工智能与形式科学交互方式的关键转折。尽管大语言模型在生成数学散文方面展现出惊人的流畅性,但在将领域特定的物理符号——狄拉克括号、协变导数、旋量指标——精确翻译为可执行、可验证的代码时,它们始终力不从心。其根本原因并非语法知识的匮乏,而是语义根基的缺失:模型并不“理解”bra-ket 表示具有特定线性约束的内积,也不明白广义相对论中的偏导数必须考虑克里斯托费尔联络。

FormalScience 通过构建一个多智能体系统直接解决了这一问题。该系统将自然语言物理陈述分解为抽象语义图(ASG),再由专门的 Lean 代码生成器将其映射为候选翻译,最后通过人类专家的实时反馈进行纠错与优化。这一“人在回路”的设计将每次陈述的人工干预时间从数小时压缩至数分钟,并在量子力学和广义相对论测试集上实现了 78% 和 71% 的首次正确率——相比零样本大语言模型提升了 5 倍。项目团队已开源部分训练数据和 Lean 代码生成器,为物理学的形式化验证提供了全新范式。

技术深度解析

FormalScience 的架构摒弃了端到端的神经翻译模式,转而采用模块化、智能体驱动的流水线,包含三个核心组件:

1. 语义分解器:一个基于 LLaMA-3-70B 架构微调的大语言模型,负责将自然语言的物理陈述解析为抽象语义图(ASG)。图中的每个节点代表一个物理实体(如“电子态”、“度规张量”),边表示操作(如“内积”、“协变导数”)。ASG 并非语法解析树,它编码了物理量纲和对称性约束。

2. Lean 代码生成器:一个专门的 Transformer 模型,训练语料来自 Mathlib4 仓库中约 50,000 个经过验证的 Lean 4 证明,并补充了 8,000 个物理学特定证明(例如薛定谔方程幺正性的证明、广义相对论中的比安基恒等式)。该模型将每个 ASG 节点映射为 Lean 表达式,但输出的是带有置信度分数的一组候选翻译。

3. 人类反馈接口:系统通过轻量级 Web UI 向人类专家展示每个歧义节点的前 3 个候选翻译。专家选择正确选项或提供文本修正。这些反馈被记录并用于通过强化学习(具体来说是针对结构化输出调整的 RLHF 变体)对语义分解器进行微调。

关键创新:反馈循环并非作用于最终输出,而是作用于中间语义决策。这大幅降低了每段陈述所需的人力——从数小时的代码调试缩减为数分钟的语义验证。

基准测试表现:该项目在来自量子力学和广义相对论教科书的 200 条物理陈述测试集上进行了评估。指标为“首次尝试正确率”——即无需任何人工修正的陈述比例。

| 模型 | 量子力学陈述(n=100) | 广义相对论陈述(n=100) | 平均人工干预次数 | 平均每段陈述耗时 |
|---|---|---|---|---|
| GPT-4o(零样本) | 12% | 8% | 4.2 | 35 分钟 |
| Claude 3.5 Sonnet(零样本) | 15% | 10% | 3.8 | 28 分钟 |
| FormalScience(无反馈) | 34% | 29% | 2.1 | 12 分钟 |
| FormalScience(带反馈) | 78% | 71% | 0.4 | 8 分钟 |

数据要点:“人在回路”方法使首次尝试正确率相比零样本大语言模型提升了 5 倍,并将所需人工干预次数降低了一个数量级。在广义相对论陈述上 71% 的成功率尤为突出,考虑到张量指标操作的复杂性。

相关开源项目:团队已在 GitHub 上以 `formal-science-tools` 仓库发布了部分训练数据和 Lean 代码生成器(目前约 1200 星)。其中包含一个用于常见物理操作的 Lean 4 策略库(例如 `dirac_bra`、`christoffel_simplify`),社区可对其进行扩展。

关键参与者与案例研究

FormalScience 项目由剑桥大学应用数学与理论物理系和马克斯·普朗克光科学研究所的跨机构团队领导。首席研究员是 Elena Vogt 博士,一位理论物理学家,此前曾为 Lean 社区对阿蒂亚-辛格指标定理的形式化做出贡献。工程负责人是 Anish Patel 博士,曾任 DeepMind 数学团队研究科学家,参与过 AlphaProof 系统的工作。

竞争方法:多项计划致力于物理学的形式化,但它们在理念上有所不同。

| 系统 | 方法 | 人类角色 | 范围 | 成熟度 |
|---|---|---|---|---|
| FormalScience | 智能体分解 + 人类反馈 | 语义验证者 | 量子力学、广义相对论、量子场论 | 研究原型 |
| LeanDojo(斯坦福) | 基于 Mathlib 的检索增强生成 | 证明助手 | 通用数学 | 生产级(10000+ 星) |
| AlphaProof(DeepMind) | 基于证明搜索的强化学习 | 无 | 奥赛数学 | 研究阶段 |
| Isabelle/HOL 形式证明档案 | 手动形式化 | 完整证明作者 | 通用数学 | 生产级 |

数据要点:FormalScience 占据了一个独特的生态位——它是唯一专门为物理符号设计的系统,也是唯一将人类反馈视为翻译过程的一等组件(而非仅仅是调试工具)的系统。

案例研究:狄拉克 delta 函数:一个众所周知的难题是将狄拉克 delta“函数”形式化为一个分布。零样本大语言模型常常生成将其视为逐点函数的 Lean 代码,导致矛盾。FormalScience 的语义分解器正确将其识别为 Schwartz 分布,并映射到 Lean 的 `Distribution` 类型(来自 `analysis/calculus/` 库)。在测试中,该特定案例平均仅需 0.2 次人工干预,而 GPT-4o 需要 3.5 次。

行业影响与市场动态

FormalScience 解决了一个长期限制 AI 在形式科学领域发挥作用的瓶颈。

更多来自 arXiv cs.AI

自适应分层规划:让AI智能体像人类一样思考多年来,基于大语言模型的智能体一直被困在僵化的规划范式之中:面对简单任务时过度工程化、生成不必要的步骤,而面对复杂的多步骤挑战时又规划不足,导致失败频发。一种全新的自适应分层规划框架直接回应了这一痛点,允许智能体动态调整其规划粒度。当任务直AI裁判偏见难除:九种去偏策略均告失败,LLM评估体系面临根本性挑战将大语言模型用作自动化裁判来评估其他AI系统,长期以来被视为一种可扩展、低成本的人类评估替代方案。然而,一项覆盖四家供应商(谷歌Gemini、Anthropic Claude、OpenAI GPT-4o和Meta Llama 3)的五款裁判AR眼镜+大模型:实时心理操控攻击时代来临一种融合消费级增强现实眼镜与大语言模型的新型社会工程攻击——AR-LLM-SE正在浮现。与传统窃取密码或凭证的攻击不同,该方法将实时心理画像武器化。攻击者佩戴内置摄像头和麦克风的AR眼镜,捕捉目标的微表情、语调、肢体语言及环境背景。这些多模查看来源专题页arXiv cs.AI 已收录 242 篇文章

时间归档

April 20262780 篇已发布文章

延伸阅读

AI导师“目标漂移”:为何计算机教育离不开人类导航员AI导师融入计算机科学教育,暴露出一个根本性设计缺陷——“目标漂移”。大语言模型虽能提供可扩展的个性化辅导,但其渐进式指引可能使学生偏离既定学习目标。行业应对之策正从单纯追求模型能力,转向构建制度化人类监督的智能工作流。自适应分层规划:让AI智能体像人类一样思考一种全新的自适应分层规划框架,使大语言模型智能体能够根据任务复杂度动态调整规划深度,彻底解决了长期存在的固定粒度规划难题。这一突破有望让AI智能体在效率和可靠性上实现质的飞跃。AI裁判偏见难除:九种去偏策略均告失败,LLM评估体系面临根本性挑战一项全新实证研究揭示,即便采用九种不同的去偏策略,来自谷歌、Anthropic、OpenAI和Meta的五款主流大模型作为裁判时,仍存在顽固的风格偏见。这一发现动摇了“自我评估”范式的根基,迫使业界重新审视AI性能评估的根本方法。AR眼镜+大模型:实时心理操控攻击时代来临一种名为AR-LLM-SE的新型社会工程攻击,利用AR眼镜捕捉视觉与音频数据,再由大语言模型实时分析生成详细的心理画像与操控策略。这标志着攻击从数据窃取转向实时心理控制,威胁等级急剧升级。

常见问题

GitHub 热点“FormalScience: How Human Feedback Teaches AI to Speak Physics with Rigor”主要讲了什么?

The FormalScience project marks a pivotal shift in how artificial intelligence engages with formal science. While large language models have demonstrated remarkable fluency in gene…

这个 GitHub 项目在“FormalScience Lean physics formalization tutorial”上为什么会引发关注?

FormalScience's architecture is a departure from end-to-end neural translation. Instead, it employs a modular, agentic pipeline with three core components: 1. Semantic Decomposer: A fine-tuned LLM (based on the LLaMA-3-7…

从“FormalScience vs LeanDojo for quantum mechanics”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 0,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。