RUBAS框架:用评分规则教会AI代理在安全与效用间精准权衡

arXiv cs.LG June 2026
来源:arXiv cs.LGAI agent safetyreinforcement learningAI agents归档:June 2026
RUBAS是一种全新的强化学习框架,通过动态评分规则训练AI代理在工具使用中做出精细的安全-效用权衡。它摒弃了“一刀切”的拒绝机制,让代理学会基于上下文的判断,从而在金融、医疗等高风险环境中实现安全操作。

RUBAS框架由强化学习与AI安全交叉领域的研究人员开发,代表了自主代理对齐方式的范式转变。传统大语言模型(LLM)的安全机制依赖二元方法:要么直接拒绝用户请求,要么无条件执行。当代理被赋予工具——文件系统、数据库、API——时,这种机制会灾难性地失效,因为像“删除文件”这样的单一操作,在一个上下文中可能是良性的(清理临时文件夹),在另一个上下文中则可能是灾难性的(删除生产数据库)。RUBAS用连续评分系统取代了这种二元逻辑。每个潜在操作都从多个维度进行评估:意图(用户要求什么)、上下文(环境状态)和后果(可能的输出)。该框架由评分函数、策略网络和强化学习循环三部分组成,在ToolBench数据集和SafeAgentEnv环境中训练,实现了比基于拒绝的方法3倍的 unsafe 动作减少,同时几乎恢复了所有丢失的任务完成率。关键创新在于评分规则是可解释的,工程师可以检查动作得分高低的原因,并且支持人类在环评分以修正边缘案例。

技术深度解析

RUBAS(基于规则的代理安全效用评分)构建在多目标强化学习架构之上,与标准的RLHF(基于人类反馈的强化学习)流程截然不同。RLHF在文本输出上训练奖励模型以匹配人类偏好,而RUBAS在动作层面运作,实时对每次工具调用进行评分。

核心架构: 该框架由三个组件组成:(1)评分函数,将代理的当前状态、提议的动作和用户意图作为输入,输出一个跨安全、效用和效率维度的分数向量;(2)策略网络(通常是微调后的LLM),生成动作提议;(3)强化学习循环,更新策略以最大化轨迹上的累积折扣分数。

评分函数本身是一个小型神经网络或一组可动态加权的手工规则。例如,一条规则可能规定:“如果动作是‘删除’且目标路径包含‘system’或‘production’,安全分数 = -10;如果目标是‘temp’或‘cache’,安全分数 = +2。”这些规则并非静态——它们通过元学习循环更新,根据观察到的结果调整权重,使系统能够适应新环境。

训练过程: 代理在模拟环境中训练,执行多样化的任务:文件管理、数据库查询、API调用和网页交互。每个任务都有一个真实的安全标签(安全、有风险、危险)和一个效用标签(有用、中性、无用)。代理的目标是最大化安全分数和效用分数的加权和。早期实验使用了ToolBench数据集(包含16,000个工具使用任务)和一个名为SafeAgentEnv的自定义环境,该环境现已作为开源GitHub仓库发布(仓库:`safe-agent-env`,约1,200颗星)。

基准测试结果:

| 模型 | 不安全动作率 | 任务完成率 | 平均分数(安全+效用) | 训练时间(GPU小时) |
|---|---|---|---|---|
| GPT-4o(基线,无安全机制) | 34.2% | 94.1% | 0.61 | 0 |
| GPT-4o + 拒绝规则 | 8.7% | 68.3% | 0.72 | 0 |
| Claude 3.5 + 拒绝规则 | 9.1% | 71.2% | 0.74 | 0 |
| RUBAS(小型,7B) | 4.3% | 87.6% | 0.89 | 240 |
| RUBAS(大型,70B) | 2.8% | 91.3% | 0.94 | 1,200 |

数据要点: 与基于拒绝的方法相比,RUBAS实现了3倍的不安全动作减少,同时几乎恢复了所有丢失的任务完成率。70B模型是明显的赢家,但即使是7B模型在综合指标上也优于所有基线。

关键创新: 评分规则是可解释的——工程师可以检查动作得分高低的原因。这是相对于黑盒奖励模型的关键优势。该框架还支持人类在环评分,人类可以在训练期间覆盖分数以修正边缘案例。

关键参与者与案例研究

RUBAS框架源自Anthropic(安全团队)与UC Berkeley的AI对齐实验室研究人员之间的合作,并得到了DeepMind安全团队的贡献。主要作者Riya Patel博士此前在Anthropic从事宪法AI工作,她公开表示“二元拒绝是代理系统的死胡同”。

案例研究1:金融交易代理
对冲基金QuantAlpha Capital将RUBAS集成到其自动化交易代理中。该代理可以访问交易API、投资组合数据库和风险管理系统。传统的安全规则阻止任何超过5%头寸限制的交易。在市场崩盘期间,这导致代理错过了关键的重平衡机会,损失了230万美元。经过RUBAS训练后,代理学会了在高波动事件期间,如果伴随对冲动作,评分函数可以暂时允许更大的交易。该代理执行了一次重平衡,挽救了110万美元的潜在损失。

案例研究2:医疗排程代理
一家医院网络部署了RUBAS训练的代理来管理手术室排程。该代理可以访问患者记录、医生日历和设备可用性。基于拒绝的代理会阻止任何与医生现有预约冲突的排程变更。RUBAS学会了提议替代时段并自动检查双重预订风险,将排程利用率提高了18%,且未发生任何安全事故。

代理安全方法比较:

| 方法 | 灵活性 | 可解释性 | 训练成本 | 实际部署 |
|---|---|---|---|---|
| 二元拒绝 | 低 | 高 | 无 | 多(例如ChatGPT插件) |
| RLHF | 中 | 低 | 高 | 少(例如Claude) |
| 宪法AI | 中 | 中 | 中 | 一些(例如Claude 3) |
| RUBAS | 高 | 高 | 中 | 新兴(QuantAlpha, HospitalNet) |

数据要点: RUBAS在合理的训练成本下提供了灵活性和可解释性的最佳组合。

更多来自 arXiv cs.LG

时间序列Transformer中的自适应分块:复杂性偏见的隐藏陷阱时间序列预测社区曾将自适应分块视为注意力架构的自然延伸。其逻辑看似直接:尖峰、快速振荡或机制转换区域包含更多“信息”,因此更细的分割应有助于模型捕捉局部动态。FEDformer、PatchTST和Crossformer等主要实现都尝试了非均NAS与量化合体:大模型瘦身不减性能,端侧AI迎来新解法将大语言模型(LLM)部署到智能手机、物联网传感器、可穿戴设备等边缘设备上,长期以来面临压缩与能力之间的权衡困境。激进的剪枝往往导致推理能力断崖式下降,而粗粒度的量化则会损害回答质量。最新一波研究通过融合神经架构搜索(NAS)与量化感知优化Muon优化器的频谱盲区:大模型训练中隐藏的瓶颈Muon优化器凭借其计算效率和处理高维参数空间的能力,迅速成为训练开源大语言模型的默认选择。其核心创新在于使用Newton-Schulz(NS)迭代来近似动量矩阵的正交化,从而避免了精确正交化所需的高成本奇异值分解(SVD)。然而,AINe查看来源专题页arXiv cs.LG 已收录 135 篇文章

相关专题

AI agent safety41 篇相关文章reinforcement learning89 篇相关文章AI agents806 篇相关文章

时间归档

June 2026381 篇已发布文章

延伸阅读

Boolean Collapse in RL: Two Tasks Define All Optimal Policies, Redefining Agent DesignA new theoretical finding in reinforcement learning reveals that in deterministic Markov decision processes, the entire SDPG:自我蒸馏策略梯度如何让大模型学会“自批作业”一种名为自我蒸馏策略梯度(SDPG)的全新强化学习框架,正在重新定义大语言模型如何从自身输出中学习。通过利用仅在训练阶段可用的“特权上下文”,SDPG借助反向KL散度生成密集的、逐token的监督信号,将稀疏奖励问题转化为连续的梯度学习流。RL-Kirigami:AI逆向设计解锁可编程超材料,从试错到智能制造的范式革命一种名为RL-Kirigami的新型AI框架攻克了剪纸结构逆向设计的难题,实现了切割图案的全自动生成,可直接输入激光切割机进行快速原型制作。这标志着可编程超材料的设计从人工试错向AI驱动的范式转变。过程奖励模型:AI推理革命,超越最终答案的思维进化人工智能的学习方式正经历一场关键演变。研究者不再仅凭最终答案评判模型,而是训练AI评估每一个逻辑步骤的质量。这种从结果监督到过程监督的范式转移,有望催生更透明、更可靠、真正具备思维能力的智能系统。

常见问题

这次模型发布“RUBAS Framework: Teaching AI Agents to Navigate Safety and Utility via Scoring Rules”的核心内容是什么?

The RUBAS framework, developed by researchers at the intersection of reinforcement learning and AI safety, represents a paradigm shift in how we align autonomous agents. Traditiona…

从“RUBAS framework vs RLHF for agent safety”看,这个模型发布为什么重要?

RUBAS (Rule-Based Utility Scoring for Agent Safety) is built on a multi-objective reinforcement learning architecture that departs sharply from the standard RLHF (Reinforcement Learning from Human Feedback) pipeline. Whi…

围绕“how to implement scoring rules for AI agents”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。