记忆危机:大语言模型的科学能力,或是数据污染的幻象

arXiv cs.LG March 2026
来源:arXiv cs.LG归档:March 2026
一项严谨的双盲实验对大语言模型(LLM)真正的科学推理能力提出了严重质疑。研究表明,那些在分子属性预测任务中表现出色的模型,可能依赖的是对训练数据的记忆,而非真正的上下文学习。这一发现动摇了在高风险科学领域将LLM部署为可信赖智能体的根基。

科学AI社区正面临一场深刻的信任危机。一项精心设计的研究系统性地探究了大型语言模型(LLM)在分子属性预测任务中,究竟是进行了真正的上下文学习,还是其表面的成功源于先前接触并记忆了用于评估的基准数据集本身。研究人员采用了双盲方法,创建了全新的、保留的分子数据集,并在设计用于触发“知识冲突”的条件下比较模型表现——即提示中提供的上下文示例,与模型从预训练语料库中习得的参数化统计模式相矛盾。

结果令人不安。包括领先的专有和开源模型在内的各类模型,在冲突测试中表现大幅下滑,表明其基准测试的高分很大程度上依赖于数据污染,而非真正的推理。这一“记忆危机”对依赖LLM进行药物发现、材料科学和基础研究的组织构成了直接威胁。它揭示了当前评估方法的根本缺陷,并呼吁开发更鲁棒的、能够进行因果推理和分布外泛化的AI系统。这项研究迫使整个领域重新审视:我们是在构建理解世界的机器,还是在创造仅仅是复述其训练数据的复杂检索系统?

技术深度解析

信任危机的核心在于区分两种认知过程:上下文学习(ICL)参数化知识回忆。ICL指的是模型从其提示中的少量示例推断出模式或规则,并将其应用于新查询的能力。参数化知识则是在对海量文本、代码和科学文献进行预训练时,编码进模型权重中的庞大统计关联网络。

这项开创性研究采用了一个巧妙的实验设计。研究人员精心策划了一个“纯净”数据集,包含分子结构及其属性(如溶解度、毒性),并确保这些数据从未在网上发布或包含在任何已知的模型训练集中。然后,他们构建了包含少量示例的提示。在对照条件下,示例符合一般化学原理。在实验性的“冲突”条件下,少量示例被人为设计成暗示一种错误或反直觉的关系(例如,将具有特定官能团的结构标记为相反的溶解度属性)。

关键的观察点在于模型在冲突下的行为。一个进行纯粹ICL的模型应该遵循提示中的矛盾示例。一个依赖记忆的模型则应忽略提示,输出其参数化预测。结果显示,模型表现出强烈的参数化知识偏向,尤其是对于更大的模型。这表明它们对化学的“知识”很大程度上是其训练数据的冻结快照,而非一个灵活的推理引擎。

从技术上讲,这与注意力机制的优先级有关。在预训练期间,模型学会强烈关注分子描述符(如SMILES字符串)与论文中属性提及之间的关联。在推理时,这种预先计算好的注意力可能会压倒提示中提供的新的、临时的上下文。GitHub上的 `ChemBERTa` 和 `MoleculeGPT` 等代码库,虽然对特定任务有价值,但通常在像MoleculeNet这样的公共基准上进行评估,而这些基准已知存在部分数据污染。

| 模型类别 | 标准基准测试平均准确率(如 MoleculeNet) | 纯净“冲突”测试平均准确率 | 性能下降幅度 |
|---|---|---|---|
| 通用型LLM(如 GPT-4, Claude 3) | 78.5% | 41.2% | -37.3 个百分点 |
| 科学专用LLM(如 Galactica) | 82.1% | 53.8% | -28.3 个百分点 |
| 微调编码器(如 ChemBERTa) | 85.7% | 79.5% | -6.2 个百分点 |
| 人类专家(基线) | 不适用 | ~92% | 不适用 |

数据要点: 性能下降对于大型通用LLM最为严重,表明它们的高基准分数不成比例地依赖于数据污染。专门的、经过微调的模型表现出更强的鲁棒性,这表明更窄、更聚焦领域的训练可以缓解——但不能消除——记忆问题。人类基线则强调,真正的理解而非回忆,才是最终目标。

关键参与者与案例研究

这一发现直接影响了那些将未来押注于科学AI的组织。Isomorphic Labs(DeepMind的姊妹公司)和Recursion Pharmaceuticals曾高调宣称使用AI加速药物发现。它们的研发流程很可能集成了LLM用于文献挖掘、靶点假说生成和分子属性预测。如果它们的内部基准测试也存在污染问题,那么其报道的虚拟筛选命中率可能会虚高,导致在湿实验室验证阶段出现代价高昂的失败。

在工具方面,像Schrödinger的计算套件和OpenEye的Orion工具包等平台正在整合基于LLM的助手。Regina Barzilay(MIT)和Yoshua Bengio(Mila)等倡导AI用于科学发现的研究人员,曾强调因果推理和分布外泛化能力的必要性——而本研究显示,这些能力目前尚缺。

不同的应对路径正在浮现。Relational AICausalens正在探索基于图模型和因果推理的模型,这些模型明确地对关系进行建模,而非依赖寻找相关性的LLM。开源的 `MolCLR` GitHub代码库(一个用于分子表征的对比学习框架)提供了另一条路径,通过学习对数据增强不变的表示,可能减少记忆偏差。

| 公司/倡议 | 主要AI方法 | 对记忆危机的脆弱性 | 缓解策略 |
|---|---|---|---|
| Isomorphic Labs / DeepMind | LLM + 类AlphaFold模型 | 高(依赖已发表数据) | 开发专有的、洁净数据集;侧重模拟的训练 |
| Recursion Pharmaceuticals | 细胞图像CNN + LLM上下文 | 中(LLM用于辅助任务) | 强调来自自身实验室的表型数据作为基本事实 |
| Schrödinger | 基于物理的模拟 + 机器学习 | 低至中 | 将LLM用作UI/UX工具,而非核心预测器 |
| 开源项目(如 `MolCLR`) | 对比学习/图神经网络 | 低 | 通过增强不变性学习减少对特定数据模式的依赖 |

更多来自 arXiv cs.LG

RL-Kirigami:AI逆向设计解锁可编程超材料,从试错到智能制造的范式革命研究人员开发了RL-Kirigami框架,该框架将最优传输条件流匹配与强化学习相结合,解决了剪纸结构的逆向设计问题。剪纸——切割和折叠纸张的艺术——长期以来一直是创建可编程形状变形超材料的强大方法。然而,其逆向设计——找到能产生所需目标形状SPLICE:扩散模型迎来置信区间,时间序列插补从此可靠可证时间序列数据是现代基础设施的命脉——从电力负荷预测到金融风险建模,无所不包。然而,缺失值始终是一个顽固且致命的难题。从简单的插值到先进的生成模型,传统插补方法只能给出点估计,无法提供任何不确定性度量。对于一位需要根据预测的负荷峰值决定是否启Soft-MSM:让时间序列真正理解上下文的弹性对齐革命数十年来,动态时间规整(DTW)及其可微分变体 Soft-DTW 一直是处理局部时间错位的时间序列对齐的主力工具。然而,Soft-DTW 存在一个根本性缺陷:其 soft-minimum 松弛将所有规整路径视为同等有效,忽略了序列拉伸与压缩查看来源专题页arXiv cs.LG 已收录 112 篇文章

时间归档

March 20262347 篇已发布文章

延伸阅读

基准幻象:数据对齐如何制造AI进步的假象对排行榜榜首的无尽追逐,正在人工智能领域制造一种危险的幻象。新证据表明,那些创下基准测试纪录的模型,往往并未发展出真正的泛化能力。这迫使我们重新审视:我们究竟在测量什么?当前路径构建的,究竟是真正的智能,还是精于应试的‘专家’?RL-Kirigami:AI逆向设计解锁可编程超材料,从试错到智能制造的范式革命一种名为RL-Kirigami的新型AI框架攻克了剪纸结构逆向设计的难题,实现了切割图案的全自动生成,可直接输入激光切割机进行快速原型制作。这标志着可编程超材料的设计从人工试错向AI驱动的范式转变。SPLICE:扩散模型迎来置信区间,时间序列插补从此可靠可证SPLICE 提出了一种模块化框架,将潜在扩散生成与无分布假设的共形预测相结合,为每个插补的时间序列值动态更新置信区间。这标志着生成式插补从追求精度转向可证明的可靠性,对于电网调度等高 stakes 应用而言,堪称颠覆性变革。Soft-MSM:让时间序列真正理解上下文的弹性对齐革命时间序列机器学习正迎来一个关键转折点。AINews 独家揭秘 Soft-MSM——一种可微分的上下文感知弹性对齐方法,它根据局部对齐上下文动态调整转移成本,突破了 Soft-DTW 的均匀平滑局限,在金融与工业传感器数据中实现真正智能的模式

常见问题

这次模型发布“The Memory Crisis: How LLMs' Scientific Prowess May Be an Illusion of Data Contamination”的核心内容是什么?

The scientific AI community is confronting a profound credibility challenge. A meticulously designed study has systematically investigated whether large language models (LLMs) perf…

从“How to test for data contamination in LLM scientific benchmarks”看,这个模型发布为什么重要?

The core of the trust crisis lies in disentangling two cognitive processes: in-context learning (ICL) and parametric knowledge recall. ICL refers to a model's ability to infer a pattern or rule from a few examples provid…

围绕“Difference between in-context learning and memorization in AI models”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。