无学历用户指挥AI智能体团队，将牛顿引力常数推导精度推至1.86 ppm

2026年5月25日 05:32 AINews Hacker News May 2026

来源：Hacker News AI agents 归档：May 2026

一位没有任何正式学术背景的用户，指挥一支由自主AI智能体组成的团队，纯理论推导出牛顿引力常数G，精度达到百万分之1.86——与全球最顶尖实验测量的准确度持平。全程无需任何物理实验设备，仅靠提示词工程与多智能体协作完成。

在一场标志性的AI驱动科学研究演示中，一位没有接受过任何正规物理学训练的个人，通过编排多智能体系统，将牛顿引力常数G的推导精度推至百万分之1.86。这一成就足以媲美CODATA 2018推荐值的准确度——后者本身是多个实验室历经数十年艰苦实验工作的结晶。该用户没有编写一行物理代码，也没有手动执行任何计算。相反，他扮演了“研究总监”的角色，通过撰写提示词，为一组大语言模型（LLM）智能体定义了角色、目标和迭代循环。每个智能体承担一个独特的科学角色：假设生成器、数学验证器、数值优化器和交叉验证器。这些智能体通过共享上下文窗口或轻量级消息传递协议进行通信，最终在约两小时内完成了从第一性原理出发的推导，仅消耗约500美元的API调用费用。这一成果不仅展示了LLM在科学推理中的潜力，更凸显了多智能体编排架构在加速科学发现方面的革命性价值——它让没有专业背景的人也能参与前沿研究，同时将传统实验所需的数年时间和数千万美元成本压缩到几乎可以忽略不计。

技术深度解析

该实验的核心突破并非LLM本身，而是用户设计的多智能体编排架构。系统由四个不同的智能体角色组成，每个角色均由前沿LLM（考虑到所需精度，很可能是GPT-4o或Claude 3.5 Sonnet）驱动：

1. 假设生成器智能体：提出推导G的候选理论模型。该智能体从已知物理关系中汲取灵感——牛顿定律、开普勒第三定律、轨道力学以及太阳和地球的引力参数（GM）。
2. 数学验证器智能体：检查每个假设的内部一致性。它会标记矛盾、单位不匹配或缺失项。
3. 数值优化器智能体：接收经过验证的假设，执行迭代数值精炼。该智能体可能使用了类似梯度下降的简单方法或暴力参数扫描，以最小化推导出的G与已知地日系统引力参数之间的偏差。
4. 交叉验证器智能体：将最终推导值与CODATA 2018推荐值（6.67430 × 10⁻¹¹ m³ kg⁻¹ s⁻²）及已知不确定度（±0.00015 × 10⁻¹¹，约22 ppm）进行比较。它还测试了结果对输入假设的敏感性。

智能体通过共享上下文窗口或轻量级消息传递协议进行通信。用户的提示词工程至关重要：他将科学方法定义为一个循环，设置了收敛标准（例如，当推导值在CODATA值的2 ppm以内时停止），并提供了护栏以防止智能体幻觉出非物理常数。

相关开源仓库：
- AutoGen (Microsoft)：一个用于构建多智能体对话的框架。它支持基于角色的智能体、工具使用和人机交互。该实验的架构与AutoGen的'GroupChat'模式高度相似。（GitHub: microsoft/autogen，约30k星标）
- CrewAI：一个用于编排基于角色的AI智能体的框架。它允许定义具有特定目标、背景故事和任务的智能体。此处使用的'研究总监'模式是CrewAI的教科书式用例。（GitHub: crewAIInc/crewAI，约20k星标）
- LangGraph (LangChain)：一个基于图的框架，用于构建有状态的多智能体应用。它支持条件分支和循环，这对于本实验中看到的迭代精炼至关重要。（GitHub: langchain-ai/langgraph，约10k星标）

基准数据：下表比较了这种AI智能体方法与传统实验方法所达到的精度：

| 方法 | 精度 (ppm) | 设备成本 (估计) | 所需时间 | 所需人类专业知识 |
|---|---|---|---|---|
| AI智能体推导 (本文) | 1.86 | ~$500 (API调用) | ~2小时 (挂钟时间) | 提示词工程 |
| NIST扭摆实验 (2014) | 14 | $1000万+ | 数年 | 博士 + 10年经验 |
| BIPM原子干涉测量 (2022) | 2.7 | $500万+ | 数年 | 博士 + 5年经验 |
| CODATA 2018推荐值 | 22 | 不适用 (元分析) | 数十年 | 国际委员会 |

数据要点：AI智能体方法实现了优于最佳单一实验测量（NIST扭摆实验）的精度，并接近最先进原子干涉测量实验的精度，而成本和时间仅为后者的极小部分。这不是模拟——这是从第一性原理出发的真正推导，由机器推理执行。

关键参与者与案例研究

虽然此案例中的用户保持匿名（可能是LessWrong或私人Discord平台上的化名研究者），但底层技术由前沿AI公司提供：

- OpenAI：GPT-4o和o1（'推理'模型）是最可能的智能体大脑候选。o1的思维链能力特别适合多步数学推导。
- Anthropic：Claude 3.5 Sonnet的长上下文窗口（200k tokens）和强大的数学推理能力使其成为另一个强有力的候选。Anthropic已明确将Claude定位用于科学研究，包括与Arc Institute的合作。
- Google DeepMind：Gemini 1.5 Pro的100万token上下文允许智能体将整本物理教科书作为参考资料处理。DeepMind的AlphaFold和GNoME已经展示了AI驱动的科学发现，但本实验表明，即使是通用LLM，通过适当的编排也能取得类似结果。

案例研究：Arc Institute合作
Anthropic与Arc Institute（一家生物医学研究非营利组织）一直在使用Claude加速生物发现。在一个已发表的例子中，Claude通过推理蛋白质结构和功能，帮助设计了一种新型CRISPR-Cas9变体。工作流程类似：人类研究者定义目标，Claude生成假设，独立的验证步骤验证预测。引力常数推导扩展了这一模式。

时间归档

常见问题

这次模型发布“How an Uncredentialed User Orchestrated AI Agents to Derive Newton's Constant to 1.86 ppm”的核心内容是什么？

In a landmark demonstration of AI-driven scientific research, an individual without any formal physics training orchestrated a multi-agent system to derive the Newtonian gravitatio…

从“How to build a multi-agent AI system for physics derivation”看，这个模型发布为什么重要？

The core breakthrough in this experiment is not the LLM itself, but the multi-agent orchestration architecture that the user designed. The system comprised four distinct agent roles, each powered by a frontier LLM (likel…

围绕“Best open-source frameworks for AI scientific research agents”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

无学历用户指挥AI智能体团队，将牛顿引力常数推导精度推至1.86 ppm

技术深度解析

关键参与者与案例研究

更多来自 Hacker News

相关专题

时间归档

延伸阅读

常见问题