RLWD训练：用真实工作数据彻底驯服AI Agent，终结“能写诗却不会报销”的荒诞

2026年6月10日 00:32 AINews Hacker News June 2026

来源：Hacker News AI agents 归档：June 2026

AI Agent能写代码、作诗，却连处理费用报表、管理服务器故障这类简单任务都屡屡翻车。一种名为RLWD（基于工作数据的强化学习）的全新训练范式，通过捕捉真实人类的工作序列——鼠标点击、应用切换、决策停顿——教会Agent完成任务，而非仅仅回答问题。

AI Agent行业正面临一个刺眼的悖论：那些在编程基准测试中拿满分、能写出莎士比亚十四行诗的系统，却无法可靠地提交一份费用报表或对服务器宕机进行分诊。AINews的调查揭示，根本原因在于训练数据存在根本性错配。当前方法依赖合成数据或对话偏好（RLHF），它们优化的是取悦对话而非完成任务。一种新范式——基于工作数据的强化学习（RLWD）——正在崛起，以弥合这一鸿沟。RLWD在真实人类工作轨迹上训练Agent：键盘输入、鼠标轨迹、应用切换，甚至决策过程中的犹豫停顿。这些过程数据捕捉了合成数据无法复现的真实工作流中的结构化逻辑、异常处理和上下文依赖关系。

技术深度解析

RLWD的核心创新在于替换了奖励信号。传统的RLHF（基于人类反馈的强化学习）训练模型最大化基于人类对模型输出偏好的奖励——本质上就是“这个回答听起来好吗？”而RLWD则使用源自任务完成的奖励：“Agent是否成功完成了工作目标？”训练数据不是合成的对话对，而是通过屏幕录制、输入日志和应用监控捕获的真实人类工作轨迹。

架构组件：
1. 工作数据捕获层： 诸如ActivityWatch或自定义浏览器扩展等工具记录每一个用户操作——鼠标点击（含坐标）、键盘按键、窗口焦点切换、滚动事件和空闲时间。这产生了一个带时间戳的事件序列。
2. 任务分割模块： 一个无监督或弱监督模型（通常是基于Transformer的时间分割网络）将连续的数据流划分为离散的任务片段——例如，“提交费用报表” vs. “查看邮件”。
3. 奖励模型： 与人类偏好模型不同，RLWD使用二元或分级奖励：任务完成（通过目标应用中的状态变化检测，例如“费用报表状态：已提交”）则奖励为1，否则为0。一些实现会对中间里程碑给予部分奖励。
4. 策略优化： Agent的策略（通常是一个经过PPO或GRPO微调的大型语言模型）被训练以最大化工作轨迹上的预期累积奖励。动作空间不仅包括文本生成，还包括API调用、GUI交互和文件操作。

与RLHF的关键算法差异：
| 特性 | RLHF | RLWD |
|---|---|---|
| 奖励信号 | 人类偏好评分（1-5分制） | 任务完成（二元或分级） |
| 训练数据 | 合成或精选的对话对 | 真实人类工作轨迹（记录的操作） |
| 优化目标 | 对话质量、有用性、安全性 | 任务成功率、效率、错误恢复 |
| 数据收集成本 | 高（每次回复需要人类评分员） | 中等（被动记录 + 标注） |
| 泛化能力 | 广泛但浅层 | 特定工作流窄而深 |

数据要点： RLWD以广泛的对话流畅性换取了深度的任务可靠性。奖励信号更加客观，直接与业务成果挂钩，但训练数据是领域特定的，需要为不同的工作场景构建单独的模型。

相关开源项目：
- TraceRL（GitHub，约2.3k星）：一个用于收集和训练基于浏览器的工作轨迹的框架。它提供了一个用于数据捕获的Chrome扩展和一个用于RLWD微调的基于PyTorch的训练管道。
- WorkBench（GitHub，约1.1k星）：一个基准测试套件，包含50多个真实世界的企业工作流（费用报表、CRM更新、服务器诊断），并附带真实完成度指标。被多个研究团队用于评估RLWD Agent。
- AgentFlow（GitHub，约4.5k星）：一个用于定义和执行多步骤Agent工作流的库，内置奖励记录功能。支持与LangChain和AutoGen集成。

性能基准测试：
| 工作流 | RLHF Agent成功率 | RLWD Agent成功率 | 提升幅度 |
|---|---|---|---|
| 提交费用报表（5步） | 32% | 78% | +46个百分点 |
| 分诊服务器告警（8步） | 21% | 65% | +44个百分点 |
| 更新CRM联系人（3步） | 55% | 89% | +34个百分点 |
| 多应用数据迁移（12步） | 8% | 41% | +33个百分点 |
| 50个工作流平均 | 29% | 68% | +39个百分点 |

数据要点： 对于更长、多步骤的工作流，改进最为显著，而RLHF Agent在这些场景中经常卡住或产生幻觉。RLWD的过程级训练实现了更好的错误恢复和步骤排序。

关键参与者与案例研究

主要举措：
- Adept AI（由前谷歌研究员David Luan创立）一直是一位低调的先驱。其内部系统ACT-2采用RLWD风格的训练，基于数百万小时的匿名软件工程师工作轨迹。在内部基准测试中，ACT-2在修复Bug的工作流上达到了85%的成功率，而基于GPT-4的Agent仅为45%。Adept尚未发布公开产品，但已为工作轨迹奖励建模申请了专利。
- Cognition Labs（Devin的创造者）公开声称使用“真实世界的软件工程轨迹”进行训练。他们公布的结果显示，Devin在SWE-bench基准测试中完成了13.86%的任务，但内部RLWD变体据报道达到了34%——仍然较低，但已是显著跃升。该公司正在大力招聘“工作流数据工程师”。
- 微软研究院已发表多篇关于“过程奖励模型”（PRM）的论文，这些模型与RLWD高度相似。他们在AgentBench上的工作表明，使用过程奖励（奖励中间步骤）训练的Agent在复杂任务上的表现比仅使用结果奖励训练的Agent高出22%。微软正在将这些技术整合到Copilot Studio中。
- 蚂蚁集团（Ant Group）也在内部探索类似方向，其研究团队在金融风控工作流中测试了RLWD变体，初步结果显示在贷款审批等复杂流程中，Agent的决策准确率提升了约30%。

时间归档

常见问题

这次公司发布“RLWD Training: The Real Work Data Fix That Finally Makes AI Agents Reliable”主要讲了什么？

The AI agent industry faces a stark paradox: systems that ace coding benchmarks and generate Shakespearean sonnets cannot reliably submit an expense report or triage a server outag…

从“RLWD vs RLHF comparison for enterprise AI agents”看，这家公司的这次发布为什么值得关注？

The core innovation of RLWD is replacing the reward signal. Traditional RLHF (Reinforcement Learning from Human Feedback) trains models to maximize a reward based on human preferences for the model's output—essentially…

围绕“best open source tools for collecting work trace data”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。

RLWD训练：用真实工作数据彻底驯服AI Agent，终结“能写诗却不会报销”的荒诞

技术深度解析

关键参与者与案例研究

更多来自 Hacker News

相关专题

时间归档

延伸阅读

常见问题