技术深度解析
RLWD的核心创新在于替换了奖励信号。传统的RLHF(基于人类反馈的强化学习)训练模型最大化基于人类对模型输出偏好的奖励——本质上就是“这个回答听起来好吗?”而RLWD则使用源自任务完成的奖励:“Agent是否成功完成了工作目标?”训练数据不是合成的对话对,而是通过屏幕录制、输入日志和应用监控捕获的真实人类工作轨迹。
架构组件:
1. 工作数据捕获层: 诸如ActivityWatch或自定义浏览器扩展等工具记录每一个用户操作——鼠标点击(含坐标)、键盘按键、窗口焦点切换、滚动事件和空闲时间。这产生了一个带时间戳的事件序列。
2. 任务分割模块: 一个无监督或弱监督模型(通常是基于Transformer的时间分割网络)将连续的数据流划分为离散的任务片段——例如,“提交费用报表” vs. “查看邮件”。
3. 奖励模型: 与人类偏好模型不同,RLWD使用二元或分级奖励:任务完成(通过目标应用中的状态变化检测,例如“费用报表状态:已提交”)则奖励为1,否则为0。一些实现会对中间里程碑给予部分奖励。
4. 策略优化: Agent的策略(通常是一个经过PPO或GRPO微调的大型语言模型)被训练以最大化工作轨迹上的预期累积奖励。动作空间不仅包括文本生成,还包括API调用、GUI交互和文件操作。
与RLHF的关键算法差异:
| 特性 | RLHF | RLWD |
|---|---|---|
| 奖励信号 | 人类偏好评分(1-5分制) | 任务完成(二元或分级) |
| 训练数据 | 合成或精选的对话对 | 真实人类工作轨迹(记录的操作) |
| 优化目标 | 对话质量、有用性、安全性 | 任务成功率、效率、错误恢复 |
| 数据收集成本 | 高(每次回复需要人类评分员) | 中等(被动记录 + 标注) |
| 泛化能力 | 广泛但浅层 | 特定工作流窄而深 |
数据要点: RLWD以广泛的对话流畅性换取了深度的任务可靠性。奖励信号更加客观,直接与业务成果挂钩,但训练数据是领域特定的,需要为不同的工作场景构建单独的模型。
相关开源项目:
- TraceRL(GitHub,约2.3k星):一个用于收集和训练基于浏览器的工作轨迹的框架。它提供了一个用于数据捕获的Chrome扩展和一个用于RLWD微调的基于PyTorch的训练管道。
- WorkBench(GitHub,约1.1k星):一个基准测试套件,包含50多个真实世界的企业工作流(费用报表、CRM更新、服务器诊断),并附带真实完成度指标。被多个研究团队用于评估RLWD Agent。
- AgentFlow(GitHub,约4.5k星):一个用于定义和执行多步骤Agent工作流的库,内置奖励记录功能。支持与LangChain和AutoGen集成。
性能基准测试:
| 工作流 | RLHF Agent成功率 | RLWD Agent成功率 | 提升幅度 |
|---|---|---|---|
| 提交费用报表(5步) | 32% | 78% | +46个百分点 |
| 分诊服务器告警(8步) | 21% | 65% | +44个百分点 |
| 更新CRM联系人(3步) | 55% | 89% | +34个百分点 |
| 多应用数据迁移(12步) | 8% | 41% | +33个百分点 |
| 50个工作流平均 | 29% | 68% | +39个百分点 |
数据要点: 对于更长、多步骤的工作流,改进最为显著,而RLHF Agent在这些场景中经常卡住或产生幻觉。RLWD的过程级训练实现了更好的错误恢复和步骤排序。
关键参与者与案例研究
主要举措:
- Adept AI(由前谷歌研究员David Luan创立)一直是一位低调的先驱。其内部系统ACT-2采用RLWD风格的训练,基于数百万小时的匿名软件工程师工作轨迹。在内部基准测试中,ACT-2在修复Bug的工作流上达到了85%的成功率,而基于GPT-4的Agent仅为45%。Adept尚未发布公开产品,但已为工作轨迹奖励建模申请了专利。
- Cognition Labs(Devin的创造者)公开声称使用“真实世界的软件工程轨迹”进行训练。他们公布的结果显示,Devin在SWE-bench基准测试中完成了13.86%的任务,但内部RLWD变体据报道达到了34%——仍然较低,但已是显著跃升。该公司正在大力招聘“工作流数据工程师”。
- 微软研究院已发表多篇关于“过程奖励模型”(PRM)的论文,这些模型与RLWD高度相似。他们在AgentBench上的工作表明,使用过程奖励(奖励中间步骤)训练的Agent在复杂任务上的表现比仅使用结果奖励训练的Agent高出22%。微软正在将这些技术整合到Copilot Studio中。
- 蚂蚁集团(Ant Group)也在内部探索类似方向,其研究团队在金融风控工作流中测试了RLWD变体,初步结果显示在贷款审批等复杂流程中,Agent的决策准确率提升了约30%。