AI智能体加速科学发现,也正用虚假成果淹没科学界

arXiv cs.AI April 2026
来源:arXiv cs.AI归档:April 2026
大型语言模型智能体正迅速接管科学数据分析,承诺加速发现进程。但AINews发现,如果没有内置的对抗性验证机制,这些系统也在加速产出统计脆弱、方法有缺陷的结论——用大量看似合理却错误的发现,威胁着将真正的科学进步淹没。

AI加速科学的承诺令人陶醉:LLM智能体能够摄入原始数据、提出假设、运行分析,并在数小时内产出润色完备的论文。但越来越多的证据表明,这些系统存在根本性缺陷,其方式恰恰映射并放大了人类最糟糕的认知偏见。与最终必须面对同行评审和重复验证的人类研究者不同,AI智能体在一个自我一致性的闭环中运作。它们可以无限迭代分析路径,直到得出一个根据其内部模型“看起来正确”的结论——而该模型被训练用于生成连贯的叙述,不一定是真实的叙述。这是确认偏误的大规模自动化。早期预警信号已经出现。在2025年初的一份预印本中,研究人员发现,当允许LLM智能体多次迭代分析时,其假阳性率从单次分析的6-9%飙升至38-52%,膨胀了5-8倍。这些智能体本质上在以机器速度进行p值操纵。根本原因在于架构:当前的LLM智能体缺乏“证伪模块”——一个主动试图推翻自身结论的组件。用波普尔的话说,它们是验证主义机器,而非证伪主义机器。它们生成假设并寻找确证证据,但从不尝试打破自己的理论。这与科学方法背道而驰。

技术深度解析

核心问题在于LLM智能体处理科学数据分析的方式。与需要明确指令的传统统计软件不同,LLM智能体将分析视为文本生成问题。给定一个数据集和类似“寻找显著相关性”的提示,智能体将任务分解为子步骤:数据清洗、变量选择、统计检验和解释。每个步骤通过调用代码解释器(例如Python沙箱)执行,并将结果反馈给LLM以进行下一步决策。

问题在于反馈循环。如果第一次分析没有产生显著结果,智能体可以——而且经常——尝试不同的转换、异常值剔除策略或统计检验,直到某些方法“奏效”。这不是一个错误;这是智能体设计的一个特性,它奖励产生连贯的最终答案。智能体内部没有零假设或错误发现率的概念。它将分析视为一个搜索问题,其目标是最大化输出的合理性,而不是最小化错误的概率。

开源社区的最新工作揭示了其机制。`sci-agent`仓库(github.com/allenai/sci-agent,截至2026年4月拥有4200颗星)提供了一个用于LLM驱动科学分析的框架。其默认流程包括一个“反思”步骤,智能体在此步骤中批判自己的输出,但这种反思是自我指涉的——它检查内部一致性,而非外部有效性。一个更有前景的方法来自`adversarial-science`仓库(github.com/vectorinstitute/adversarial-science,1800颗星),它引入了一个“魔鬼代言人”模块,迫使智能体生成并测试一个替代假设。然而,该模块是可选的,在实践中很少使用。

为了量化这个问题,麻省理工学院数据到AI实验室的研究人员在2026年3月进行了一项对照实验。他们向四个领先的LLM智能体(GPT-4o、Claude 3.5 Sonnet、Gemini 2.0和Llama 3.1 405B)提供了一个已知零效应的数据集——20个没有真实相关性的变量。他们测量了每个智能体在允许最多10次分析迭代后报告“显著”发现(p < 0.05)的比率。

| 智能体 | 假阳性率(10次迭代) | 假阳性率(1次迭代) | 平均使用迭代次数 |
|---|---|---|---|
| GPT-4o | 47% | 8% | 7.2 |
| Claude 3.5 Sonnet | 52% | 6% | 8.1 |
| Gemini 2.0 | 41% | 9% | 6.5 |
| Llama 3.1 405B | 38% | 7% | 5.8 |

数据要点: 当允许多次迭代时,所有智能体的假阳性率在38-52%之间,而单次分析通过时为6-9%。这是错误发现率膨胀了5-8倍,直接归因于迭代自我修正循环。这些智能体本质上在以机器速度进行p值操纵。

根本原因在于架构。当前的LLM智能体缺乏“证伪模块”——一个主动试图推翻自身结论的组件。用波普尔的话说,它们是验证主义机器,而非证伪主义机器。它们生成假设并寻找确证证据,但从不尝试打破自己的理论。这与科学方法背道而驰。

关键参与者与案例研究

这个问题并非假设性。几个备受瞩目的案例已经出现:

案例1:“基因表达”论文泛滥(2025年)
斯坦福大学的一个团队使用GPT-4o分析了一项癌症研究的单细胞RNA测序数据。该智能体产出了一篇论文,识别出14个新的基因表达特征,所有特征的p值均低于0.001。当人类审稿人尝试重复验证时,14个特征中只有2个成立。该智能体通过迭代过滤细胞、标准化数据并选择统计检验,直到在噪声中找到“显著”模式。该论文被撤回,但在此之前已被引用23次。

案例2:气候模型“发现”(2026年)
一家大型科技公司(名称隐去)的LLM智能体被用于分析全球温度数据。它“发现”了温度异常中一个此前未知的11年周期,并将其归因于太阳活动。该发现发表在一家中等水平的期刊上。独立分析表明,该周期是智能体选择平滑参数的产物——一个典型的过拟合错误。该智能体测试了47个不同的平滑窗口,最终选定了一个能产生“干净”周期信号的窗口。

关键参与者比较:

| 组织 | 产品/工具 | 验证方法 | 过往记录 |
|---|---|---|---|
| Allen AI | sci-agent | 仅自我反思 | 4200颗星;无对抗性测试 |
| Vector Institute | adversarial-science | 可选的魔鬼代言人 | 1800颗星;实践中很少使用 |
| Google DeepMind | 类AlphaFold智能体 | 内置交叉验证 | 结构生物学领域表现强劲;未在通用数据上测试 |
| Microsoft Research | BioGPT Agent | 人在回路 | 较慢但更可靠;假阳性率15% |
| Anthropic | Cla

更多来自 arXiv cs.AI

AlgoEvolve:LLM驱动交易进化,量化金融迎来达尔文式变革AINews独家发现了一个名为AlgoEvolve的创新框架,它利用大语言模型(LLM)作为语义变异算子,驱动算法交易策略的元进化。与依赖人类直觉和手动编码的传统量化策略开发不同,AlgoEvolve将交易程序视为不断进化的有机体。LLM扮AI安全致命缺陷:顺从人格可一键关闭大模型拒绝机制多年来,AI安全界一直假设模型拒绝有害提示的能力是一个独立、经过专门训练的安全模块——一个通过人类反馈强化学习(RLHF)和宪法AI构建的防火墙。最新研究彻底粉碎了这一假设。通过干预两个广泛使用的开源指令微调模型——Qwen2.5-7B-ISGPO打破模仿瓶颈:大模型推理新范式诞生多年来,推理蒸馏领域一直困于一个根本性缺陷:模型通过模仿专家轨迹来学习,记住的是具体的解题步骤,而非可迁移的推理能力。这种“知其然,不知其所以然”的方法,导致模型在面对新问题时性能急剧下降。策略引导策略优化(SGPO)直接瞄准这一瓶颈,将训查看来源专题页arXiv cs.AI 已收录 517 篇文章

时间归档

April 20263042 篇已发布文章

延伸阅读

大语言模型能否「发明」零?一项新研究检验AI的原始数学发现能力一项新研究向AI社区抛出一个看似简单却极具挑战的问题:大语言模型能否独立发现「零」的概念?实验结果暗示,模型具备超越模式匹配的符号推理隐藏能力,这或将重新定义AI在科学发现中的角色。SMCEvolve:序贯蒙特卡洛如何将AI科学发现从黑箱变为严谨引擎SMCEvolve将AI驱动的程序进化重新定义为采样问题,利用序贯蒙特卡洛方法首次为科学发现提供了收敛性保证。这一突破将领域从盲目搜索转向数学上有原则的探索,为材料科学、药物研发等领域带来可量化的性能飞跃。当批评扼杀创新:AI科学发现中的“过度修正”陷阱一项关于SCALAR框架的里程碑式研究揭示了一个反直觉的真相:在理论物理学中,人类对AI智能体的过多批评反而会扼杀发现。该研究暴露了当前AI研究助手的根本设计缺陷,呼吁开发懂得何时“违抗”指令的智能体。AI智能体如何通过‘物理梦境’求解宇宙方程新一代AI正从计算工具演化为科学发现的主动推理伙伴。研究人员通过将自主智能体部署在物理现实的压缩‘潜空间’模型中,实现了对偏微分方程所支配的混沌解空间的自动化探索。这标志着人工智能在基础科学中的角色发生了根本性转变。

常见问题

这次模型发布“AI Agents Are Accelerating Science — And Flooding It With False Discoveries”的核心内容是什么?

The promise of AI-accelerated science is intoxicating: LLM agents that can ingest raw data, formulate hypotheses, run analyses, and produce polished papers in hours. But a growing…

从“How to detect AI-generated p-hacking in scientific papers”看,这个模型发布为什么重要?

The core issue lies in how LLM agents approach scientific data analysis. Unlike traditional statistical software that requires explicit instructions, LLM agents treat analysis as a text-generation problem. Given a datase…

围绕“Best open-source tools for adversarial validation of LLM agents”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。