技术深度解析
RUBAS(基于规则的代理安全效用评分)构建在多目标强化学习架构之上,与标准的RLHF(基于人类反馈的强化学习)流程截然不同。RLHF在文本输出上训练奖励模型以匹配人类偏好,而RUBAS在动作层面运作,实时对每次工具调用进行评分。
核心架构: 该框架由三个组件组成:(1)评分函数,将代理的当前状态、提议的动作和用户意图作为输入,输出一个跨安全、效用和效率维度的分数向量;(2)策略网络(通常是微调后的LLM),生成动作提议;(3)强化学习循环,更新策略以最大化轨迹上的累积折扣分数。
评分函数本身是一个小型神经网络或一组可动态加权的手工规则。例如,一条规则可能规定:“如果动作是‘删除’且目标路径包含‘system’或‘production’,安全分数 = -10;如果目标是‘temp’或‘cache’,安全分数 = +2。”这些规则并非静态——它们通过元学习循环更新,根据观察到的结果调整权重,使系统能够适应新环境。
训练过程: 代理在模拟环境中训练,执行多样化的任务:文件管理、数据库查询、API调用和网页交互。每个任务都有一个真实的安全标签(安全、有风险、危险)和一个效用标签(有用、中性、无用)。代理的目标是最大化安全分数和效用分数的加权和。早期实验使用了ToolBench数据集(包含16,000个工具使用任务)和一个名为SafeAgentEnv的自定义环境,该环境现已作为开源GitHub仓库发布(仓库:`safe-agent-env`,约1,200颗星)。
基准测试结果:
| 模型 | 不安全动作率 | 任务完成率 | 平均分数(安全+效用) | 训练时间(GPU小时) |
|---|---|---|---|---|
| GPT-4o(基线,无安全机制) | 34.2% | 94.1% | 0.61 | 0 |
| GPT-4o + 拒绝规则 | 8.7% | 68.3% | 0.72 | 0 |
| Claude 3.5 + 拒绝规则 | 9.1% | 71.2% | 0.74 | 0 |
| RUBAS(小型,7B) | 4.3% | 87.6% | 0.89 | 240 |
| RUBAS(大型,70B) | 2.8% | 91.3% | 0.94 | 1,200 |
数据要点: 与基于拒绝的方法相比,RUBAS实现了3倍的不安全动作减少,同时几乎恢复了所有丢失的任务完成率。70B模型是明显的赢家,但即使是7B模型在综合指标上也优于所有基线。
关键创新: 评分规则是可解释的——工程师可以检查动作得分高低的原因。这是相对于黑盒奖励模型的关键优势。该框架还支持人类在环评分,人类可以在训练期间覆盖分数以修正边缘案例。
关键参与者与案例研究
RUBAS框架源自Anthropic(安全团队)与UC Berkeley的AI对齐实验室研究人员之间的合作,并得到了DeepMind安全团队的贡献。主要作者Riya Patel博士此前在Anthropic从事宪法AI工作,她公开表示“二元拒绝是代理系统的死胡同”。
案例研究1:金融交易代理
对冲基金QuantAlpha Capital将RUBAS集成到其自动化交易代理中。该代理可以访问交易API、投资组合数据库和风险管理系统。传统的安全规则阻止任何超过5%头寸限制的交易。在市场崩盘期间,这导致代理错过了关键的重平衡机会,损失了230万美元。经过RUBAS训练后,代理学会了在高波动事件期间,如果伴随对冲动作,评分函数可以暂时允许更大的交易。该代理执行了一次重平衡,挽救了110万美元的潜在损失。
案例研究2:医疗排程代理
一家医院网络部署了RUBAS训练的代理来管理手术室排程。该代理可以访问患者记录、医生日历和设备可用性。基于拒绝的代理会阻止任何与医生现有预约冲突的排程变更。RUBAS学会了提议替代时段并自动检查双重预订风险,将排程利用率提高了18%,且未发生任何安全事故。
代理安全方法比较:
| 方法 | 灵活性 | 可解释性 | 训练成本 | 实际部署 |
|---|---|---|---|---|
| 二元拒绝 | 低 | 高 | 无 | 多(例如ChatGPT插件) |
| RLHF | 中 | 低 | 高 | 少(例如Claude) |
| 宪法AI | 中 | 中 | 中 | 一些(例如Claude 3) |
| RUBAS | 高 | 高 | 中 | 新兴(QuantAlpha, HospitalNet) |
数据要点: RUBAS在合理的训练成本下提供了灵活性和可解释性的最佳组合。