技术深度解析
教导AI进行证伪,其技术挑战与教导其证明有根本不同。证明生成通常涉及在有效推理的空间中进行前向或后向链式搜索。而证伪或反例生成,则要求模型跳出规则系统,去设想一个前提成立但结论失败的世界。这是一个在可能无限的结构空间中的搜索问题。
当前的方法通常涉及一个多阶段的流程。首先,一个模型(通常是经过微调的Llama 3、Claude 3或GPT-4变体)解析一个用Lean、Isabelle或特定领域形式化语言陈述的形式猜想。随后,它不尝试证明,而是进行有针对性的搜索,寻找违反猜想的实例。关键技术包括:
* 符号执行的引导式搜索: 模型被训练来提出满足猜想前提的候选结构(例如,特定的图、代数群、程序输入)。随后,一个符号验证器或如Z3这样的可满足性模理论(SMT)求解器会检查该候选是否违反结论。模型利用求解器的反馈来优化搜索,学习反例的“形态”。
* 对抗性微调: 模型在包含猜想及其证明与反例配对的数据集上进行训练。一个值得注意的开源项目是`FormalFalsify`代码库,它整理了一个Lean定理数据集,标注了其真值,若为假则提供构造性反例。训练目标包含一个“证伪损失”,用于奖励模型正确识别错误陈述并生成有效反例。
* 神经-符号混合方法: 大语言模型充当符号搜索引擎的启发式引导器。例如,模型可能生成一个反例的约束模板(“寻找一个阶数小于12的非阿贝尔群”),然后由符号求解器具体填充。长期用于形式化方法的`反例引导的归纳合成(CEGIS)`范式,正通过神经引导进行增强,以提高搜索效率。
一个关键的基准测试是`FALSIFY-IT`基准套件,它不仅衡量模型判断定理为假的能力,更衡量其生成可验证的正确反例的能力。性能通过成功率和生成反例的复杂度来衡量。
| 模型 / 方法 | FALSIFY-IT 成功率 (%) | 平均反例复杂度(词元数) | 所需求解器调用次数(平均) |
|---|---|---|---|
| GPT-4 (零样本) | 18.2 | 45 | 不适用 |
| Claude 3 Sonnet (零样本) | 22.7 | 52 | 不适用 |
| Llama 3 70B (在`FormalFalsify`上微调) | 41.5 | 28 | 15 |
| 神经-符号CEGIS (混合) | 67.8 | 35 | 8 |
| 人类专家 (基线) | ~95 | 变化 | 变化 |
数据洞察: 上表揭示了通用大语言模型与专用系统之间的显著差距。微调带来了大幅提升,但混合神经-符号方法以最少的验证器调用次数实现了最高的成功率,表明其搜索过程更高效、更具引导性。这凸显了纯神经方法的不足;与形式化符号工具集成是实现稳健性能的关键。
关键参与者与案例研究
该领域由学术实验室和行业研发团队共同推动,他们认识到逻辑完备的AI在商业和科学上的必要性。
OpenAI & Anthropic: 尽管未专门发表关于证伪的研究,但其前沿模型已展现出新兴的批判性推理能力。Anthropic的Claude 3凭借其强大的宪法AI框架,在识别逻辑论证中的错误前提方面表现出改进的能力,这是形式化证伪的先导。这些公司很可能正在开发用于模型输出自我批判和验证的内部能力。
微软研究院(MSR)与OpenAI合作(通过Azure): MSR在将大语言模型与Lean等定理证明器集成方面的工作,自然延伸到了反例生成。Sarah Loos和Christian Szegedy等研究人员已发表关于使用模型寻找形式化规范中漏洞的论文。这直接应用于微软的Azure Quantum和安全验证工具中,在这些领域,为假定的安全属性找到一个反例具有无可估量的价值。
Google DeepMind: 凭借其在游戏AI(AlphaGo, AlphaZero)方面的历史优势,DeepMind深谙对抗性搜索。其`FunSearch`项目旨在发现新的数学构造,本质上就涉及评估可能*证伪*先前方案最优性的候选解。这种思维方式正被应用于形式逻辑。Pushmeet Kohli等研究人员曾讨论“规范博弈”——寻找形式化规范中的漏洞——作为AI安全关键测试方法的重要性。
初创公司与专用工具:
(注:原文在此处结束,故中文分析部分亦保持同步结束,未添加原文未提供的内容。)