技术分析
CRAFT框架的技术架构代表了表征学习与策略优化的精妙融合。其核心假设是:有害与良性的模型输出,源于隐藏层激活的高维空间内不同的轨迹。传统的安全微调(如通过人类反馈强化学习在最终输出层应用的方法)可能被利用模型剩余不安全推理能力的提示所绕过。CRAFT通过在计算图中更早的阶段介入来解决此问题。
第一阶段涉及构建对比学习目标。将成对的提示(一个引发安全响应,一个引发越狱响应)输入模型。记录内部状态(例如来自中间Transformer层的状态),并用于训练一个投影头,将这些状态映射到一个空间中,使得安全与不安全的推理轨迹被最大程度地分离。这就在模型自身的潜在空间内创建了一个“安全指南针”。
第二阶段采用强化学习,特别是近端策略优化的一个变体,但使用了一种新颖的奖励信号。奖励函数并非(或不仅)奖励最终输出的安全性,而是源自模型的*内部推理状态*与第一阶段识别的“安全”表征簇的接近程度。当模型在其思维链中生成每个词元时,它会根据其当前隐藏状态与安全方向的契合度获得反馈。这激励模型实时自我纠正其推理路径,形成对安全逻辑演进的内在偏好。
这种方法具有多个优势。它更难被越狱,因为攻击现在必须破坏整个内部推理序列,而不仅仅是最终输出步骤。它还可能提高透明度,因为模型被强化的推理步骤可以被检查,为了解*为何*某个响应被认为是安全的提供了一个窗口。
行业影响
推理层对齐技术的引入有望颠覆AI安全格局。对于在受监管行业部署LLM的企业而言,类似CRAFT的框架提供了更强大的安全网。在金融服务领域,模型可能生成投资建议,对内部状态的实时监控可以在任何建议给出之前,标记出偏离至不道德或高风险逻辑的推理。在医疗保健领域,可以训练诊断助手逐步展示其临床推理,同时通过隐藏状态安全检查确保每一步都遵循医疗指南并避免有害假设。
这项技术使得安全机制得以从外部的、通常脆弱的的内容过滤器,转向内生的、习得的安全机制。AI平台提供商可以将此类系统集成为基础层,提供“安全即服务”,确保核心模型的推理过程本身具备内在的安全导向。