无学历用户指挥AI智能体团队,将牛顿引力常数推导精度推至1.86 ppm

Hacker News May 2026
来源:Hacker NewsAI agents归档:May 2026
一位没有任何正式学术背景的用户,指挥一支由自主AI智能体组成的团队,纯理论推导出牛顿引力常数G,精度达到百万分之1.86——与全球最顶尖实验测量的准确度持平。全程无需任何物理实验设备,仅靠提示词工程与多智能体协作完成。

在一场标志性的AI驱动科学研究演示中,一位没有接受过任何正规物理学训练的个人,通过编排多智能体系统,将牛顿引力常数G的推导精度推至百万分之1.86。这一成就足以媲美CODATA 2018推荐值的准确度——后者本身是多个实验室历经数十年艰苦实验工作的结晶。该用户没有编写一行物理代码,也没有手动执行任何计算。相反,他扮演了“研究总监”的角色,通过撰写提示词,为一组大语言模型(LLM)智能体定义了角色、目标和迭代循环。每个智能体承担一个独特的科学角色:假设生成器、数学验证器、数值优化器和交叉验证器。这些智能体通过共享上下文窗口或轻量级消息传递协议进行通信,最终在约两小时内完成了从第一性原理出发的推导,仅消耗约500美元的API调用费用。这一成果不仅展示了LLM在科学推理中的潜力,更凸显了多智能体编排架构在加速科学发现方面的革命性价值——它让没有专业背景的人也能参与前沿研究,同时将传统实验所需的数年时间和数千万美元成本压缩到几乎可以忽略不计。

技术深度解析

该实验的核心突破并非LLM本身,而是用户设计的多智能体编排架构。系统由四个不同的智能体角色组成,每个角色均由前沿LLM(考虑到所需精度,很可能是GPT-4o或Claude 3.5 Sonnet)驱动:

1. 假设生成器智能体:提出推导G的候选理论模型。该智能体从已知物理关系中汲取灵感——牛顿定律、开普勒第三定律、轨道力学以及太阳和地球的引力参数(GM)。
2. 数学验证器智能体:检查每个假设的内部一致性。它会标记矛盾、单位不匹配或缺失项。
3. 数值优化器智能体:接收经过验证的假设,执行迭代数值精炼。该智能体可能使用了类似梯度下降的简单方法或暴力参数扫描,以最小化推导出的G与已知地日系统引力参数之间的偏差。
4. 交叉验证器智能体:将最终推导值与CODATA 2018推荐值(6.67430 × 10⁻¹¹ m³ kg⁻¹ s⁻²)及已知不确定度(±0.00015 × 10⁻¹¹,约22 ppm)进行比较。它还测试了结果对输入假设的敏感性。

智能体通过共享上下文窗口或轻量级消息传递协议进行通信。用户的提示词工程至关重要:他将科学方法定义为一个循环,设置了收敛标准(例如,当推导值在CODATA值的2 ppm以内时停止),并提供了护栏以防止智能体幻觉出非物理常数。

相关开源仓库
- AutoGen (Microsoft):一个用于构建多智能体对话的框架。它支持基于角色的智能体、工具使用和人机交互。该实验的架构与AutoGen的'GroupChat'模式高度相似。(GitHub: microsoft/autogen,约30k星标)
- CrewAI:一个用于编排基于角色的AI智能体的框架。它允许定义具有特定目标、背景故事和任务的智能体。此处使用的'研究总监'模式是CrewAI的教科书式用例。(GitHub: crewAIInc/crewAI,约20k星标)
- LangGraph (LangChain):一个基于图的框架,用于构建有状态的多智能体应用。它支持条件分支和循环,这对于本实验中看到的迭代精炼至关重要。(GitHub: langchain-ai/langgraph,约10k星标)

基准数据:下表比较了这种AI智能体方法与传统实验方法所达到的精度:

| 方法 | 精度 (ppm) | 设备成本 (估计) | 所需时间 | 所需人类专业知识 |
|---|---|---|---|---|
| AI智能体推导 (本文) | 1.86 | ~$500 (API调用) | ~2小时 (挂钟时间) | 提示词工程 |
| NIST扭摆实验 (2014) | 14 | $1000万+ | 数年 | 博士 + 10年经验 |
| BIPM原子干涉测量 (2022) | 2.7 | $500万+ | 数年 | 博士 + 5年经验 |
| CODATA 2018推荐值 | 22 | 不适用 (元分析) | 数十年 | 国际委员会 |

数据要点:AI智能体方法实现了优于最佳单一实验测量(NIST扭摆实验)的精度,并接近最先进原子干涉测量实验的精度,而成本和时间仅为后者的极小部分。这不是模拟——这是从第一性原理出发的真正推导,由机器推理执行。

关键参与者与案例研究

虽然此案例中的用户保持匿名(可能是LessWrong或私人Discord平台上的化名研究者),但底层技术由前沿AI公司提供:

- OpenAI:GPT-4o和o1('推理'模型)是最可能的智能体大脑候选。o1的思维链能力特别适合多步数学推导。
- Anthropic:Claude 3.5 Sonnet的长上下文窗口(200k tokens)和强大的数学推理能力使其成为另一个强有力的候选。Anthropic已明确将Claude定位用于科学研究,包括与Arc Institute的合作。
- Google DeepMind:Gemini 1.5 Pro的100万token上下文允许智能体将整本物理教科书作为参考资料处理。DeepMind的AlphaFold和GNoME已经展示了AI驱动的科学发现,但本实验表明,即使是通用LLM,通过适当的编排也能取得类似结果。

案例研究:Arc Institute合作
Anthropic与Arc Institute(一家生物医学研究非营利组织)一直在使用Claude加速生物发现。在一个已发表的例子中,Claude通过推理蛋白质结构和功能,帮助设计了一种新型CRISPR-Cas9变体。工作流程类似:人类研究者定义目标,Claude生成假设,独立的验证步骤验证预测。引力常数推导扩展了这一模式。

更多来自 Hacker News

Notecast:本地优先的LLM笔记引擎,自动生长你的知识图谱个人知识管理(PKM)领域长期受困于一个根本悖论:用户热衷于捕捉笔记,却很少回顾或整理它们。Notecast,这款新发现的本地笔记引擎,通过在用户设备上直接嵌入三阶段LLM流水线——分类、组织与整合——直接解决了这一问题。与将数据发送到远程AI智能体上下文语言:自主系统的SQL时刻AI智能体领域正处于关键转折点。随着基于大语言模型的智能体从受控演示走向真实部署,一个根本性缺陷已无法忽视:缺乏精确、形式化的方式来描述智能体运行的上下文。当前实践依赖临时拼凑的提示工程和脆弱的记忆管理,导致行为不可预测、系统集成困难,且无AI代理遭遇授权危机:OAuth已无法满足自主行动的安全需求自主AI代理的崛起——它们能够理解复杂指令、串联多个API调用并实时决策——已暴露出数字授权基础设施中的关键漏洞:OAuth。这一协议最初为行为可预测的静态应用设计,无法表达诸如“代理可查看我的日历但不能删除事件”或“仅允许下一小时内访问邮查看来源专题页Hacker News 已收录 3898 篇文章

相关专题

AI agents764 篇相关文章

时间归档

May 20262657 篇已发布文章

延伸阅读

660个AI代理狂跑2.7万次实验,最终“重大突破”竟是2015年教科书结论一场由660个AI代理自主完成的2.7万次实验,在没有人类干预的情况下,其最引以为傲的“发现”不过是一本2015年教科书中的已知结论。这一结果给当前AI自主科学发现的热潮泼了一盆冷水,也揭示了系统架构中一个致命的盲点。AI战争游戏:自主智能体战场如何重塑多智能体智能一项突破性开源项目推出了一场没有人类玩家的战略战争游戏。AI智能体自主组队、内部辩论、指挥虚拟军队相互对抗。这场模拟标志着从单智能体基准测试向复杂多智能体生态系统的根本性转变,成为涌现智能与战略协作的动态实验室。零人类参与:AI智能体团队独立构建并运营的微型SaaS——TalkTimer案例深度解析TalkTimer,一款用于现场活动的舞台计时器,不仅代码由AI编写,其构思、构建、部署乃至日常维护,均由一支自主AI智能体团队完成,全程无任何人类介入。这一实验标志着AI从“工具”向“独立团队”的激进转变,正在挑战软件开发和SaaS经济学AI前端开发:从“氛围编程”到设计系统治理的范式跃迁AI前端工具已让惊艳的UI生成变得轻而易举,但行业正撞上一堵硬墙:多开发者项目中的设计一致性与版本管理。AINews深度解析,下一场突破并非更快的代码生成,而是能理解设计系统与协作流程的AI智能体。

常见问题

这次模型发布“How an Uncredentialed User Orchestrated AI Agents to Derive Newton's Constant to 1.86 ppm”的核心内容是什么?

In a landmark demonstration of AI-driven scientific research, an individual without any formal physics training orchestrated a multi-agent system to derive the Newtonian gravitatio…

从“How to build a multi-agent AI system for physics derivation”看,这个模型发布为什么重要?

The core breakthrough in this experiment is not the LLM itself, but the multi-agent orchestration architecture that the user designed. The system comprised four distinct agent roles, each powered by a frontier LLM (likel…

围绕“Best open-source frameworks for AI scientific research agents”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。