检测已死：AI安全必须转向自我纠错架构

多年来，AI安全的主导范式一直是检测：构建一个可靠的分类器或异常检测器，在危险输出造成伤害之前将其标记出来。但随着前沿模型参数突破万亿大关，这种方法正在瓦解。正确输出与灾难性输出之间的边界不再是清晰的分界线——它是一条分形、不断变化的梯度。基于检测的系统，无论是基于困惑度、语义熵还是探针分类器，本质上都是被动的：它们只能识别已经被观察并编码的失败模式。对于模型自身日益增长的复杂性所产生的新兴、新型失败，它们视而不见。更深层的问题是架构性的：自回归Transformer，按设计，只进行一次前向传播。一旦模型偏离到错误路径，就没有内置机制可以回溯、修正或验证。检测系统——分类器、困惑度过滤器、语义熵监控器——都是在事后运作。它们是事后观察者，而非生成过程的参与者。

技术深度解析

基于检测的安全策略的根本缺陷在于架构层面。当前的大语言模型都是自回归Transformer：它们逐个生成token，每个token仅依赖于之前的token。一旦一个token被生成，它就是永久的。没有内置的机制可以回溯、修订或验证。检测系统——分类器、困惑度过滤器、语义熵监控器——都是在事后运作。它们是事后观察者，而非生成过程的参与者。

以 Wang 等人（2022）提出的自一致性方法为例：对同一提示采样多个输出，然后选择最常见的答案。这提高了准确率，但并不能阻止单个灾难性输出的生成。这是一种统计上的创可贴，而非结构性修复。

一个更有前景的方向是自我验证。最近在 GitHub 上的仓库 `self-verify`（由 Anthropic 团队开发，4.2k 星标）实现了一个循环：模型先生成一个候选答案，然后生成一个验证提示，要求自己检查逻辑，最后输出修正后的结果。早期基准测试显示，在 TruthfulQA 数据集上，事实性幻觉减少了 12-18%。但这仍然是一个事后补丁：模型仍然可能生成灾难性的第一遍输出。

多智能体共识则采取了不同的策略。不是使用一个模型，而是在同一提示上运行 N 个独立实例（或不同模型），然后通过投票或辩论聚合输出。`multi-agent-debate` 仓库（由 MIT 和斯坦福大学的研究人员开发，8.1k 星标）显示，使用 5 个智能体时，在复杂推理基准测试（GSM8K）上的事实准确率从 78% 跃升至 94%。但代价是成倍增长的：5 倍计算量，5 倍延迟。而且，如果大多数智能体被攻破，对抗性攻击仍然可以毒化共识。

形式化约束提供了最根本的修复方案。`formai` 项目（由苏黎世联邦理工学院团队开发，1.2k 星标）将一个轻量级定理证明器嵌入到 Transformer 的注意力机制中，迫使模型在生成过程中遵循逻辑一致性。在 MATH 基准测试上，它达到了 92% 的准确率，而未经约束的 GPT-4 仅为 68%。代价是流畅度下降和推理时间增加 40%。

数据表：自我修正方法性能对比

| 方法 | 基准测试 | 准确率（无修正） | 准确率（有修正） | 计算开销 | 延迟开销 |
|---|---|---|---|---|---|
| 自我验证 (Anthropic) | TruthfulQA | 72% | 88% | +20% | +35% |
| 多智能体辩论 (MIT/Stanford) | GSM8K | 78% | 94% | +400% | +400% |
| 形式化约束 (ETH Zurich) | MATH | 68% | 92% | +40% | +40% |
| 自一致性 (Wang et al.) | MMLU | 85% | 89% | +300% | +300% |

数据要点： 没有一种方法占据主导地位。对于事实性任务，自我验证提供了最佳的计算量与准确率之比，但多智能体辩论以极高的成本实现了最高的绝对准确率。形式化约束最为严谨，但目前对于实时应用来说太慢。行业需要一种混合方案：对于大多数查询使用轻量级自我验证，而形式化约束则保留给法律或医学推理等高风险的领域。

关键参与者与案例研究

Anthropic 一直是自我验证最积极的倡导者。他们于 2023 年发布的 Constitutional AI (CAI) 框架，训练模型基于一套原则进行自我批评。他们最新的模型 Claude 3.5 Opus 包含一个内部“自我检查”模式，与 GPT-4o 相比，有害输出减少了 30%。但 CAI 仍然是一个训练时的修复方案，而非运行时方案。模型仍然可能被越狱。

OpenAI 在多智能体系统上投入了大量资源。他们于 2025 年推出的“Deep Research”产品，使用一组专门化的智能体群来交叉验证金融和科学声明。内部基准测试显示，与单个 GPT-5 实例相比，幻觉减少了 22%。然而，该系统是专有的且闭源的，引发了对透明度的担忧。

Google DeepMind 正在通过其“Gemini Logic”项目追求形式化约束，该项目将一个符号推理引擎（基于 AlphaGo 架构）集成到 Transformer 中。在 BIG-Bench Hard 数据集上的早期结果显示，逻辑一致性提升了 15%。但该系统在处理模糊的自然语言输入时存在困难。

Meta 的 FAIR 实验室开源了 `llama-verify`，一个轻量级的自我验证模块，可以附加到任何 LLaMA 模型上。该仓库拥有 6.5k 星标，是初创公司最容易获取的选项。然而，它仅适用于事实性声明，不适用于代码或医疗建议等安全关键型输出。

数据表：各公司自我修正方法对比

| 公司 | 方法 | 开源？ | 关键产品 | 幻觉减少 | 计算成本 |
|---|---|---|---|---|---|
| Anthropic | 自我验证 (CAI) | 否 | Claude 3.5 Opus | 30% | +20% |
| OpenAI | 多智能体 (Deep Research) | 否 | GPT-5 Swarm | 22% | +400% |
| Google DeepMind | 形式化约束 (Gemini Logic) | 否 | Gemini | 15% (逻辑一致性) | 待定 |
| Meta | 轻量级自我验证 (llama-verify) | 是 | LLaMA 系列 | 有限（仅事实） | +15% |

时间归档

延伸阅读

常见问题

这次模型发布“Detection Is Dead: Why AI Safety Must Shift to Architectures That Self-Correct”的核心内容是什么？

For years, the dominant paradigm in AI safety has been detection: build a reliable classifier or anomaly detector that flags dangerous outputs before they cause harm. But as fronti…

从“self-verification loop AI safety”看，这个模型发布为什么重要？

The fundamental flaw in detection-based safety is architectural. Current large language models are autoregressive transformers: they generate tokens one at a time, conditioned only on previous tokens. Once a token is emi…

围绕“multi-agent consensus hallucination reduction”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。