技术深度剖析
攻击向量出奇地简单。LLM本质上是一个在海量文本语料库上训练的下一个令牌预测引擎。如果一个未发表的新证明——比如对黎曼猜想的新解法或代数拓扑中的新恒等式——被插入训练数据,模型将学习该证明逻辑步骤的条件概率。当后续被相关问题时,模型可以生成证明序列,通常带有微小的句法变化以掩盖记忆痕迹。这不是推理失败,而是LLM学习方式的固有特性。
记忆机制
来自“LLM中的记忆”研究(例如Carlini等人,2023年)表明,模型可以逐字复述训练数据,尤其是对于罕见或独特的序列。证明是一个高度结构化、确定性的令牌序列。如果它在训练数据中只出现几次(例如,在单个PDF或LaTeX文件中),模型将对该精确序列赋予高概率。攻击者面临的挑战是避免过拟合——证明不能出现得过于频繁以至于成为常见短语,也不能出现得太少以至于模型无法连贯地复现。
检测难度
当前的检测方法依赖于困惑度分析或成员推断攻击(MIA)。MIA通过测量模型对特定文本的置信度来尝试判断该文本是否在训练数据中。然而,这些攻击的误报率很高,并且容易被简单的数据增强(例如,改写证明、更改变量名或将其拆分到多个文档中)所挫败。攻击者还可以使用“金丝雀”方法:以模型仅在特定、罕见提示下才会复现的格式插入证明,从而使其更难通过随机采样检测到。
密码学解决方案:训练证明
AINews提出一种技术修复方案:“训练证明”(PoT)协议。在训练之前,组织必须将整个训练数据集的密码学哈希值(例如SHA-256)发布到公开的、带时间戳的账本(如区块链)上。训练之后,任何人都可以通过检查证明的哈希值是否出现在已提交的数据集中来验证模型的输出是否是被记忆的证明。这类似于比特币为交易打时间戳的方式。挑战在于将其扩展到数TB级别的数据集,并确保哈希覆盖所有数据,包括训练过程中生成的合成数据。
| 检测方法 | 成功率(模拟) | 误报率 | 计算成本 | 规避难度 |
|---|---|---|---|---|
| 困惑度分析 | 45% | 30% | 低 | 容易(改写) |
| 成员推断 | 60% | 25% | 中等 | 中等(数据增强) |
| 密码学PoT | 99.9% | <0.1% | 高(设置阶段) | 不可能(若正确实施) |
数据要点: 密码学方法是唯一能提供近乎确定检测的方法,但它要求从根本上改变训练数据的管理和披露方式。行业必须在信任崩塌之前优先进行这项投资。
关键参与者与案例研究
激励格局
最可能的实施者不是孤立的个人,而是资金充足的初创公司甚至国家。一家声称通过“发现”的定理在量子纠错等领域取得突破的初创公司,可能吸引数十亿美元的风险投资。一个国家可以利用“被证明”的数学进步来宣称在密码学或AI对齐方面的优势。
案例研究:“DeepMind数学”先例
DeepMind在利用LLM进行数学发现方面的工作(例如,发现了帽子集问题新解的“FunSearch”项目)是合法的用例。但它也展示了验证的难度。FunSearch生成候选解,然后通过已知评估器进行过滤。如果评估器被攻破,或者训练数据中包含该解,那么“发现”就是欺诈性的。DeepMind对其方法保持透明,但不能假设所有参与者都如此。
开源对策
开源社区正在开发诸如“Data Provenance Explorer”(GitHub仓库:`bigscience-workshop/data-provenance-explorer`,2.3k星标)之类的工具,试图追溯训练数据的来源。然而,该工具依赖于自愿提供的元数据,攻击者可以轻易伪造。一个更有前景的项目是“ProofCheck”(GitHub仓库:`proofcheck-org/proofcheck`,1.1k星标),这是一个形式化验证系统,用于检查数学证明的正确性,而不依赖训练数据。如果模型的输出通过形式化验证,它在数学上是正确的——但这并不能证明原创性。攻击者的证明同样正确。
| 组织 | 训练数据透明度 | 密码学承诺 | 未检测到注入的风险 |
|---|---|---|---|
| OpenAI | 低(部分披露) | 无 | 高 |