RLWD训练:用真实工作数据彻底驯服AI Agent,终结“能写诗却不会报销”的荒诞

Hacker News June 2026
来源:Hacker NewsAI agents归档:June 2026
AI Agent能写代码、作诗,却连处理费用报表、管理服务器故障这类简单任务都屡屡翻车。一种名为RLWD(基于工作数据的强化学习)的全新训练范式,通过捕捉真实人类的工作序列——鼠标点击、应用切换、决策停顿——教会Agent完成任务,而非仅仅回答问题。

AI Agent行业正面临一个刺眼的悖论:那些在编程基准测试中拿满分、能写出莎士比亚十四行诗的系统,却无法可靠地提交一份费用报表或对服务器宕机进行分诊。AINews的调查揭示,根本原因在于训练数据存在根本性错配。当前方法依赖合成数据或对话偏好(RLHF),它们优化的是取悦对话而非完成任务。一种新范式——基于工作数据的强化学习(RLWD)——正在崛起,以弥合这一鸿沟。RLWD在真实人类工作轨迹上训练Agent:键盘输入、鼠标轨迹、应用切换,甚至决策过程中的犹豫停顿。这些过程数据捕捉了合成数据无法复现的真实工作流中的结构化逻辑、异常处理和上下文依赖关系。

技术深度解析

RLWD的核心创新在于替换了奖励信号。传统的RLHF(基于人类反馈的强化学习)训练模型最大化基于人类对模型输出偏好的奖励——本质上就是“这个回答听起来好吗?”而RLWD则使用源自任务完成的奖励:“Agent是否成功完成了工作目标?”训练数据不是合成的对话对,而是通过屏幕录制、输入日志和应用监控捕获的真实人类工作轨迹。

架构组件:
1. 工作数据捕获层: 诸如ActivityWatch或自定义浏览器扩展等工具记录每一个用户操作——鼠标点击(含坐标)、键盘按键、窗口焦点切换、滚动事件和空闲时间。这产生了一个带时间戳的事件序列。
2. 任务分割模块: 一个无监督或弱监督模型(通常是基于Transformer的时间分割网络)将连续的数据流划分为离散的任务片段——例如,“提交费用报表” vs. “查看邮件”。
3. 奖励模型: 与人类偏好模型不同,RLWD使用二元或分级奖励:任务完成(通过目标应用中的状态变化检测,例如“费用报表状态:已提交”)则奖励为1,否则为0。一些实现会对中间里程碑给予部分奖励。
4. 策略优化: Agent的策略(通常是一个经过PPO或GRPO微调的大型语言模型)被训练以最大化工作轨迹上的预期累积奖励。动作空间不仅包括文本生成,还包括API调用、GUI交互和文件操作。

与RLHF的关键算法差异:
| 特性 | RLHF | RLWD |
|---|---|---|
| 奖励信号 | 人类偏好评分(1-5分制) | 任务完成(二元或分级) |
| 训练数据 | 合成或精选的对话对 | 真实人类工作轨迹(记录的操作) |
| 优化目标 | 对话质量、有用性、安全性 | 任务成功率、效率、错误恢复 |
| 数据收集成本 | 高(每次回复需要人类评分员) | 中等(被动记录 + 标注) |
| 泛化能力 | 广泛但浅层 | 特定工作流窄而深 |

数据要点: RLWD以广泛的对话流畅性换取了深度的任务可靠性。奖励信号更加客观,直接与业务成果挂钩,但训练数据是领域特定的,需要为不同的工作场景构建单独的模型。

相关开源项目:
- TraceRL(GitHub,约2.3k星):一个用于收集和训练基于浏览器的工作轨迹的框架。它提供了一个用于数据捕获的Chrome扩展和一个用于RLWD微调的基于PyTorch的训练管道。
- WorkBench(GitHub,约1.1k星):一个基准测试套件,包含50多个真实世界的企业工作流(费用报表、CRM更新、服务器诊断),并附带真实完成度指标。被多个研究团队用于评估RLWD Agent。
- AgentFlow(GitHub,约4.5k星):一个用于定义和执行多步骤Agent工作流的库,内置奖励记录功能。支持与LangChain和AutoGen集成。

性能基准测试:
| 工作流 | RLHF Agent成功率 | RLWD Agent成功率 | 提升幅度 |
|---|---|---|---|
| 提交费用报表(5步) | 32% | 78% | +46个百分点 |
| 分诊服务器告警(8步) | 21% | 65% | +44个百分点 |
| 更新CRM联系人(3步) | 55% | 89% | +34个百分点 |
| 多应用数据迁移(12步) | 8% | 41% | +33个百分点 |
| 50个工作流平均 | 29% | 68% | +39个百分点 |

数据要点: 对于更长、多步骤的工作流,改进最为显著,而RLHF Agent在这些场景中经常卡住或产生幻觉。RLWD的过程级训练实现了更好的错误恢复和步骤排序。

关键参与者与案例研究

主要举措:
- Adept AI(由前谷歌研究员David Luan创立)一直是一位低调的先驱。其内部系统ACT-2采用RLWD风格的训练,基于数百万小时的匿名软件工程师工作轨迹。在内部基准测试中,ACT-2在修复Bug的工作流上达到了85%的成功率,而基于GPT-4的Agent仅为45%。Adept尚未发布公开产品,但已为工作轨迹奖励建模申请了专利。
- Cognition Labs(Devin的创造者)公开声称使用“真实世界的软件工程轨迹”进行训练。他们公布的结果显示,Devin在SWE-bench基准测试中完成了13.86%的任务,但内部RLWD变体据报道达到了34%——仍然较低,但已是显著跃升。该公司正在大力招聘“工作流数据工程师”。
- 微软研究院已发表多篇关于“过程奖励模型”(PRM)的论文,这些模型与RLWD高度相似。他们在AgentBench上的工作表明,使用过程奖励(奖励中间步骤)训练的Agent在复杂任务上的表现比仅使用结果奖励训练的Agent高出22%。微软正在将这些技术整合到Copilot Studio中。
- 蚂蚁集团(Ant Group)也在内部探索类似方向,其研究团队在金融风控工作流中测试了RLWD变体,初步结果显示在贷款审批等复杂流程中,Agent的决策准确率提升了约30%。

更多来自 Hacker News

黑石与Anthropic合资收购Fractional AI:AI算力基础设施进入新纪元黑石与Anthropic联合收购Fractional AI,标志着AI基础设施融资模式的范式转变。Fractional AI专注于将昂贵的GPU集群“碎片化”为按需、细粒度的算力单元。合资公司整合了Anthropic的前沿模型能力、黑石的雄CLI Market:为下一代AI代理打造的无形经济层CLI Market并非又一个工具注册表,而是新兴代理生态系统的底层经济层。当前的主流代理框架——从LangChain到AutoGPT——在推理、规划和工具调用方面表现出色,但它们将工具获取视为需要人工介入的后续环节。开发者手动配置API密你的新同事是台AI,它有自己的台式电脑一项开创性的研究项目为AI代理配备了一个功能完整的虚拟桌面环境。该代理不依赖预先构建的API集成,而是利用计算机视觉感知屏幕,并通过思维链推理引擎规划和执行操作——点击按钮、输入命令、操作Slack、GitHub和Google Sheets查看来源专题页Hacker News 已收录 4411 篇文章

相关专题

AI agents828 篇相关文章

时间归档

June 2026850 篇已发布文章

延伸阅读

AI代理告别“保姆模式”:自主委派时代正式开启AI代理正经历一场根本性转变:从需要人类时刻“保姆式”监控,进化为真正自主的数字员工。新型自愈架构与递归推理循环,让代理能够自我纠错、动态优先级排序,并在无需人工干预的情况下处理边缘案例——这标志着“保姆模式”时代的终结。G42的AI智能体招聘实验:当数字实体成为公司正式参与者阿联酋科技巨头G42启动了一项颠覆性的企业实验:为自主AI智能体建立正式框架,使其能够申请并可能担任公司内部职位。此举超越了自动化范畴,将AI定位为制度性参与者而非工具,迫使人们从根本上重新审视组织结构、价值创造与责任归属。幽灵虚拟机:重塑AI智能体训练范式一类新型虚拟化操作系统环境正让AI智能体得以与真实桌面界面交互。这一转变将智能体开发从抽象的API调用推向具体的图形化操作,释放出真正的自动化潜力。静默的智能体军备竞赛:AI如何从工具蜕变为自主数字员工人工智能领域正经历一场根本性的范式转移。行业焦点正从静态大语言模型转向动态、目标导向的AI智能体——这些能自主行动的“数字员工”标志着AI商业化与实用化的下一个前沿阵地。

常见问题

这次公司发布“RLWD Training: The Real Work Data Fix That Finally Makes AI Agents Reliable”主要讲了什么?

The AI agent industry faces a stark paradox: systems that ace coding benchmarks and generate Shakespearean sonnets cannot reliably submit an expense report or triage a server outag…

从“RLWD vs RLHF comparison for enterprise AI agents”看,这家公司的这次发布为什么值得关注?

The core innovation of RLWD is replacing the reward signal. Traditional RLHF (Reinforcement Learning from Human Feedback) trains models to maximize a reward based on human preferences for the model's output—essentially…

围绕“best open source tools for collecting work trace data”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。