技术深度解析
FormalScience 的架构摒弃了端到端的神经翻译模式,转而采用模块化、智能体驱动的流水线,包含三个核心组件:
1. 语义分解器:一个基于 LLaMA-3-70B 架构微调的大语言模型,负责将自然语言的物理陈述解析为抽象语义图(ASG)。图中的每个节点代表一个物理实体(如“电子态”、“度规张量”),边表示操作(如“内积”、“协变导数”)。ASG 并非语法解析树,它编码了物理量纲和对称性约束。
2. Lean 代码生成器:一个专门的 Transformer 模型,训练语料来自 Mathlib4 仓库中约 50,000 个经过验证的 Lean 4 证明,并补充了 8,000 个物理学特定证明(例如薛定谔方程幺正性的证明、广义相对论中的比安基恒等式)。该模型将每个 ASG 节点映射为 Lean 表达式,但输出的是带有置信度分数的一组候选翻译。
3. 人类反馈接口:系统通过轻量级 Web UI 向人类专家展示每个歧义节点的前 3 个候选翻译。专家选择正确选项或提供文本修正。这些反馈被记录并用于通过强化学习(具体来说是针对结构化输出调整的 RLHF 变体)对语义分解器进行微调。
关键创新:反馈循环并非作用于最终输出,而是作用于中间语义决策。这大幅降低了每段陈述所需的人力——从数小时的代码调试缩减为数分钟的语义验证。
基准测试表现:该项目在来自量子力学和广义相对论教科书的 200 条物理陈述测试集上进行了评估。指标为“首次尝试正确率”——即无需任何人工修正的陈述比例。
| 模型 | 量子力学陈述(n=100) | 广义相对论陈述(n=100) | 平均人工干预次数 | 平均每段陈述耗时 |
|---|---|---|---|---|
| GPT-4o(零样本) | 12% | 8% | 4.2 | 35 分钟 |
| Claude 3.5 Sonnet(零样本) | 15% | 10% | 3.8 | 28 分钟 |
| FormalScience(无反馈) | 34% | 29% | 2.1 | 12 分钟 |
| FormalScience(带反馈) | 78% | 71% | 0.4 | 8 分钟 |
数据要点:“人在回路”方法使首次尝试正确率相比零样本大语言模型提升了 5 倍,并将所需人工干预次数降低了一个数量级。在广义相对论陈述上 71% 的成功率尤为突出,考虑到张量指标操作的复杂性。
相关开源项目:团队已在 GitHub 上以 `formal-science-tools` 仓库发布了部分训练数据和 Lean 代码生成器(目前约 1200 星)。其中包含一个用于常见物理操作的 Lean 4 策略库(例如 `dirac_bra`、`christoffel_simplify`),社区可对其进行扩展。
关键参与者与案例研究
FormalScience 项目由剑桥大学应用数学与理论物理系和马克斯·普朗克光科学研究所的跨机构团队领导。首席研究员是 Elena Vogt 博士,一位理论物理学家,此前曾为 Lean 社区对阿蒂亚-辛格指标定理的形式化做出贡献。工程负责人是 Anish Patel 博士,曾任 DeepMind 数学团队研究科学家,参与过 AlphaProof 系统的工作。
竞争方法:多项计划致力于物理学的形式化,但它们在理念上有所不同。
| 系统 | 方法 | 人类角色 | 范围 | 成熟度 |
|---|---|---|---|---|
| FormalScience | 智能体分解 + 人类反馈 | 语义验证者 | 量子力学、广义相对论、量子场论 | 研究原型 |
| LeanDojo(斯坦福) | 基于 Mathlib 的检索增强生成 | 证明助手 | 通用数学 | 生产级(10000+ 星) |
| AlphaProof(DeepMind) | 基于证明搜索的强化学习 | 无 | 奥赛数学 | 研究阶段 |
| Isabelle/HOL 形式证明档案 | 手动形式化 | 完整证明作者 | 通用数学 | 生产级 |
数据要点:FormalScience 占据了一个独特的生态位——它是唯一专门为物理符号设计的系统,也是唯一将人类反馈视为翻译过程的一等组件(而非仅仅是调试工具)的系统。
案例研究:狄拉克 delta 函数:一个众所周知的难题是将狄拉克 delta“函数”形式化为一个分布。零样本大语言模型常常生成将其视为逐点函数的 Lean 代码,导致矛盾。FormalScience 的语义分解器正确将其识别为 Schwartz 分布,并映射到 Lean 的 `Distribution` 类型(来自 `analysis/calculus/` 库)。在测试中,该特定案例平均仅需 0.2 次人工干预,而 GPT-4o 需要 3.5 次。
行业影响与市场动态
FormalScience 解决了一个长期限制 AI 在形式科学领域发挥作用的瓶颈。