AI科学家首次在真实光学平台上实现全自主科学发现

arXiv cs.AI May 2026
来源:arXiv cs.AI归档:May 2026
一个AI智能体首次在真实光学实验平台上自主完成了从假设生成到物理执行再到结果验证的完整科学发现循环。这标志着AI从研究助手向独立科学家的角色转变。

一个研究团队首次在物理光学实验平台上展示了端到端的自主科学发现。该系统基于大型语言模型(LLM)智能体,独立提出研究问题、设计实验、控制激光器、透镜和探测器执行实验,然后解读结果以确认或拒绝其假设——全程无需人类干预。与以往在模拟环境中运行或仅作为分析工具的AI系统不同,该智能体直接操控真实硬件,并处理了光学装置固有的噪声、对准漂移和校准挑战。这一成功实验验证了一种新范式:AI能够从想法到验证结果形成闭环,从而加速科学发现进程。

技术深度解析

该系统的架构紧密集成了三个层次:推理层、规划层和物理执行层。推理层由经过微调的大型语言模型(很可能是GPT-4或Llama 3的变体)驱动,充当“科学家大脑”。它维护着当前科学知识状态的结构化内部表示,包括光学参数(如激光功率、透镜焦距、探测器灵敏度)与观测现象(如衍射图案、干涉条纹)之间的已知关系。

当给定一个高层次目标(例如“研究束腰与衍射角之间的关系”)时,LLM会以机器可读格式生成一个形式化假设。该假设随后被传递给规划层,规划层结合符号推理(例如物理模拟器)和学习策略,将假设分解为一系列具体动作:“将激光设置为532 nm、50 mW”,“将透镜L1定位在坐标(x=120 mm, y=45 mm)”,“激活探测器D2并记录强度分布”。

物理执行层是一个带有夹爪的机械臂和一组电动光学支架,全部通过一个自定义的Python库进行控制,该库通过USB和GPIB通信。系统使用反馈回路:每次动作后,智能体读取传感器数据(例如光电二极管电压、CCD相机图像),并将其与内部模拟的预期结果进行比较。如果观测数据偏离超过阈值(例如对准漂移>0.1 mm),智能体会自主触发重新校准程序——这以前需要人类技术人员来完成。

一个关键的创新是“噪声感知推理”模块。光学实验对振动、热漂移和杂散光极为敏感。该智能体在包含10,000个模拟噪声实验的数据集上进行了训练,学会了区分系统误差(例如未对准的反射镜)和随机噪声。在已发表的演示中,该系统在三次失败尝试后成功识别并纠正了0.3度的反射镜未对准,全程无需任何人类输入。

读者可以探索的相关开源工具包括:
- OptiSim(GitHub,约2.3k星):一个用于模拟光学系统并带有逼真噪声模型的Python库。研究团队使用了其修改版来训练智能体的内部模拟器。
- LabGraph(GitHub,约1.1k星):一个基于图的框架,用于定义和执行实验室工作流程。规划层的动作分解建立在LabGraph的DAG表示之上。
- SciAgent(GitHub,约800星):一个最近发布的框架,用于构建基于LLM的科学智能体,团队对其进行了适配以用于硬件控制。

数据表格:自主实验与人工操作实验的性能对比

| 指标 | 人类科学家(平均) | AI智能体(本研究) | 改进幅度 |
|---|---|---|---|
| 从假设到验证结果的时间 | 4.2小时 | 1.8小时 | 快57% |
| 得出结论所需的实验次数 | 12次 | 8次 | 减少33% |
| 对准精度(平均误差) | 0.15 mm | 0.08 mm | 提升47% |
| 首次尝试成功率 | 68% | 82% | +14个百分点 |
| 处理意外硬件故障的能力 | 是(人类判断) | 是(自主恢复) | 持平 |

数据要点: AI智能体不仅更快地完成了发现循环且使用了更少的实验,还在光学对准方面实现了更高的精度——这项任务通常需要人类多年的训练。自主从硬件故障中恢复的能力尤其值得注意,因为它展示了超越脚本化自动化的鲁棒性。

关键参与者与案例研究

这一突破由一所主要研究型大学的团队领导,但底层技术借鉴了多项商业和开源努力。LLM骨干被认为是一个经过微调的Meta Llama 3 70B版本,因其强大的推理能力和宽松的许可证而被选中。该团队还整合了一个包含50,000篇arXiv论文的自定义“科学推理”数据集,重点强调实验设计和假设检验。

已有几家公司竞相将类似能力商业化:

- Emerald Cloud Lab(旧金山):运营一个完全远程的机器人云实验室,科学家可以通过网页界面运行实验。他们最近宣布了一项合作,将LLM智能体集成用于自主实验设计。其平台目前支持超过200种不同的化验类型,但LLM集成仍处于测试阶段。
- Strateos(门洛帕克):提供“云端实验室”,配备机械臂和自动化液体处理器。他们已展示了预定义协议的自主执行,但尚未实现完整的假设生成。
- Insitro(南旧金山):一家药物发现公司,使用机器学习设计实验,但仍依赖

更多来自 arXiv cs.AI

DisaBench曝光AI安全盲区:为何残障伤害亟需全新基准测试AINews独家获取了DisaBench的详细资料,这一全新的AI安全框架从根本上挑战了模型评估的现状。多年来,MMLU、HellaSwag等主流基准测试,乃至Anthropic的红队数据集或OpenAI的审核API等安全专项套件,都系统性AI学会“读心术”:潜在偏好学习如何重塑人机对齐当前大语言模型的核心短板并非推理能力,而是当用户指令模糊时,无法真正理解其“想要什么”。一项名为“潜在偏好学习”(Latent Preference Learning, LPL)的突破性研究框架直击这一痛点。不同于要求用户提供显式反馈(如点无标题Vision-language models (VLMs) are being deployed in safety-critical domains like autonomous driving, medical diagnostics查看来源专题页arXiv cs.AI 已收录 313 篇文章

时间归档

May 20261495 篇已发布文章

延伸阅读

AIRA_2框架突破AI研究智能体瓶颈,开启自主科学发现新纪元名为AIRA_2的全新框架,正致力于解决阻碍AI研究智能体从实验室演示迈向实际科研工作流的根本性架构局限。它通过攻克吞吐量、长期推理与工具灵活性三大瓶颈,为可扩展的自主科研系统提供了蓝图,有望加速多科学领域的发现进程。DisaBench曝光AI安全盲区:为何残障伤害亟需全新基准测试由残障人士与红队专家共同设计的参与式AI安全框架DisaBench,揭示了主流基准测试中的结构性盲区。它定义了涵盖7大生活领域的12种伤害类别,通过175条提示词迫使模型通过微妙且情境化的伤害测试——而非仅仅检测显性毒性。这标志着向社区定义AI学会“读心术”:潜在偏好学习如何重塑人机对齐一项全新研究框架让大语言模型能从极简交互中推断用户未言明的偏好,从被动执行指令转向主动理解意图。这标志着人机对齐的根本性转变,有望催生更直觉化、更个性化的AI代理。REVELIO Framework Maps AI Failure Modes, Turning Black Swans into Engineering ProblemsREVELIO introduces a systematic method to map and classify failure modes in vision-language models, transforming unpredi

常见问题

这次模型发布“AI Scientist Achieves First Fully Autonomous Discovery on Real Optical Bench”的核心内容是什么?

A team of researchers has demonstrated the first end-to-end autonomous scientific discovery on a physical optical experiment platform. The system, built around a large language mod…

从“AI scientist autonomous optical experiment how it works”看,这个模型发布为什么重要?

The system's architecture is a tight integration of three layers: a reasoning layer, a planning layer, and a physical execution layer. The reasoning layer is powered by a fine-tuned large language model (likely a variant…

围绕“LLM agent real hardware control scientific discovery”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。