技术深度解析
该实验的核心突破并非LLM本身,而是用户设计的多智能体编排架构。系统由四个不同的智能体角色组成,每个角色均由前沿LLM(考虑到所需精度,很可能是GPT-4o或Claude 3.5 Sonnet)驱动:
1. 假设生成器智能体:提出推导G的候选理论模型。该智能体从已知物理关系中汲取灵感——牛顿定律、开普勒第三定律、轨道力学以及太阳和地球的引力参数(GM)。
2. 数学验证器智能体:检查每个假设的内部一致性。它会标记矛盾、单位不匹配或缺失项。
3. 数值优化器智能体:接收经过验证的假设,执行迭代数值精炼。该智能体可能使用了类似梯度下降的简单方法或暴力参数扫描,以最小化推导出的G与已知地日系统引力参数之间的偏差。
4. 交叉验证器智能体:将最终推导值与CODATA 2018推荐值(6.67430 × 10⁻¹¹ m³ kg⁻¹ s⁻²)及已知不确定度(±0.00015 × 10⁻¹¹,约22 ppm)进行比较。它还测试了结果对输入假设的敏感性。
智能体通过共享上下文窗口或轻量级消息传递协议进行通信。用户的提示词工程至关重要:他将科学方法定义为一个循环,设置了收敛标准(例如,当推导值在CODATA值的2 ppm以内时停止),并提供了护栏以防止智能体幻觉出非物理常数。
相关开源仓库:
- AutoGen (Microsoft):一个用于构建多智能体对话的框架。它支持基于角色的智能体、工具使用和人机交互。该实验的架构与AutoGen的'GroupChat'模式高度相似。(GitHub: microsoft/autogen,约30k星标)
- CrewAI:一个用于编排基于角色的AI智能体的框架。它允许定义具有特定目标、背景故事和任务的智能体。此处使用的'研究总监'模式是CrewAI的教科书式用例。(GitHub: crewAIInc/crewAI,约20k星标)
- LangGraph (LangChain):一个基于图的框架,用于构建有状态的多智能体应用。它支持条件分支和循环,这对于本实验中看到的迭代精炼至关重要。(GitHub: langchain-ai/langgraph,约10k星标)
基准数据:下表比较了这种AI智能体方法与传统实验方法所达到的精度:
| 方法 | 精度 (ppm) | 设备成本 (估计) | 所需时间 | 所需人类专业知识 |
|---|---|---|---|---|
| AI智能体推导 (本文) | 1.86 | ~$500 (API调用) | ~2小时 (挂钟时间) | 提示词工程 |
| NIST扭摆实验 (2014) | 14 | $1000万+ | 数年 | 博士 + 10年经验 |
| BIPM原子干涉测量 (2022) | 2.7 | $500万+ | 数年 | 博士 + 5年经验 |
| CODATA 2018推荐值 | 22 | 不适用 (元分析) | 数十年 | 国际委员会 |
数据要点:AI智能体方法实现了优于最佳单一实验测量(NIST扭摆实验)的精度,并接近最先进原子干涉测量实验的精度,而成本和时间仅为后者的极小部分。这不是模拟——这是从第一性原理出发的真正推导,由机器推理执行。
关键参与者与案例研究
虽然此案例中的用户保持匿名(可能是LessWrong或私人Discord平台上的化名研究者),但底层技术由前沿AI公司提供:
- OpenAI:GPT-4o和o1('推理'模型)是最可能的智能体大脑候选。o1的思维链能力特别适合多步数学推导。
- Anthropic:Claude 3.5 Sonnet的长上下文窗口(200k tokens)和强大的数学推理能力使其成为另一个强有力的候选。Anthropic已明确将Claude定位用于科学研究,包括与Arc Institute的合作。
- Google DeepMind:Gemini 1.5 Pro的100万token上下文允许智能体将整本物理教科书作为参考资料处理。DeepMind的AlphaFold和GNoME已经展示了AI驱动的科学发现,但本实验表明,即使是通用LLM,通过适当的编排也能取得类似结果。
案例研究:Arc Institute合作
Anthropic与Arc Institute(一家生物医学研究非营利组织)一直在使用Claude加速生物发现。在一个已发表的例子中,Claude通过推理蛋白质结构和功能,帮助设计了一种新型CRISPR-Cas9变体。工作流程类似:人类研究者定义目标,Claude生成假设,独立的验证步骤验证预测。引力常数推导扩展了这一模式。