技术深度解析
信任危机的核心在于区分两种认知过程:上下文学习(ICL) 与参数化知识回忆。ICL指的是模型从其提示中的少量示例推断出模式或规则,并将其应用于新查询的能力。参数化知识则是在对海量文本、代码和科学文献进行预训练时,编码进模型权重中的庞大统计关联网络。
这项开创性研究采用了一个巧妙的实验设计。研究人员精心策划了一个“纯净”数据集,包含分子结构及其属性(如溶解度、毒性),并确保这些数据从未在网上发布或包含在任何已知的模型训练集中。然后,他们构建了包含少量示例的提示。在对照条件下,示例符合一般化学原理。在实验性的“冲突”条件下,少量示例被人为设计成暗示一种错误或反直觉的关系(例如,将具有特定官能团的结构标记为相反的溶解度属性)。
关键的观察点在于模型在冲突下的行为。一个进行纯粹ICL的模型应该遵循提示中的矛盾示例。一个依赖记忆的模型则应忽略提示,输出其参数化预测。结果显示,模型表现出强烈的参数化知识偏向,尤其是对于更大的模型。这表明它们对化学的“知识”很大程度上是其训练数据的冻结快照,而非一个灵活的推理引擎。
从技术上讲,这与注意力机制的优先级有关。在预训练期间,模型学会强烈关注分子描述符(如SMILES字符串)与论文中属性提及之间的关联。在推理时,这种预先计算好的注意力可能会压倒提示中提供的新的、临时的上下文。GitHub上的 `ChemBERTa` 和 `MoleculeGPT` 等代码库,虽然对特定任务有价值,但通常在像MoleculeNet这样的公共基准上进行评估,而这些基准已知存在部分数据污染。
| 模型类别 | 标准基准测试平均准确率(如 MoleculeNet) | 纯净“冲突”测试平均准确率 | 性能下降幅度 |
|---|---|---|---|
| 通用型LLM(如 GPT-4, Claude 3) | 78.5% | 41.2% | -37.3 个百分点 |
| 科学专用LLM(如 Galactica) | 82.1% | 53.8% | -28.3 个百分点 |
| 微调编码器(如 ChemBERTa) | 85.7% | 79.5% | -6.2 个百分点 |
| 人类专家(基线) | 不适用 | ~92% | 不适用 |
数据要点: 性能下降对于大型通用LLM最为严重,表明它们的高基准分数不成比例地依赖于数据污染。专门的、经过微调的模型表现出更强的鲁棒性,这表明更窄、更聚焦领域的训练可以缓解——但不能消除——记忆问题。人类基线则强调,真正的理解而非回忆,才是最终目标。
关键参与者与案例研究
这一发现直接影响了那些将未来押注于科学AI的组织。Isomorphic Labs(DeepMind的姊妹公司)和Recursion Pharmaceuticals曾高调宣称使用AI加速药物发现。它们的研发流程很可能集成了LLM用于文献挖掘、靶点假说生成和分子属性预测。如果它们的内部基准测试也存在污染问题,那么其报道的虚拟筛选命中率可能会虚高,导致在湿实验室验证阶段出现代价高昂的失败。
在工具方面,像Schrödinger的计算套件和OpenEye的Orion工具包等平台正在整合基于LLM的助手。Regina Barzilay(MIT)和Yoshua Bengio(Mila)等倡导AI用于科学发现的研究人员,曾强调因果推理和分布外泛化能力的必要性——而本研究显示,这些能力目前尚缺。
不同的应对路径正在浮现。Relational AI和Causalens正在探索基于图模型和因果推理的模型,这些模型明确地对关系进行建模,而非依赖寻找相关性的LLM。开源的 `MolCLR` GitHub代码库(一个用于分子表征的对比学习框架)提供了另一条路径,通过学习对数据增强不变的表示,可能减少记忆偏差。
| 公司/倡议 | 主要AI方法 | 对记忆危机的脆弱性 | 缓解策略 |
|---|---|---|---|
| Isomorphic Labs / DeepMind | LLM + 类AlphaFold模型 | 高(依赖已发表数据) | 开发专有的、洁净数据集;侧重模拟的训练 |
| Recursion Pharmaceuticals | 细胞图像CNN + LLM上下文 | 中(LLM用于辅助任务) | 强调来自自身实验室的表型数据作为基本事实 |
| Schrödinger | 基于物理的模拟 + 机器学习 | 低至中 | 将LLM用作UI/UX工具,而非核心预测器 |
| 开源项目(如 `MolCLR`) | 对比学习/图神经网络 | 低 | 通过增强不变性学习减少对特定数据模式的依赖 |