BrowserGym:ServiceNow 开源打造网页任务自动化智能体的标准训练场

GitHub June 2026
⭐ 1255
来源:GitHubreinforcement learning归档:June 2026
ServiceNow 正式开源 BrowserGym,一个基于经典 Gym 接口的强化学习环境,旨在为网页任务自动化提供统一、标准化的训练与评估框架。通过将网页交互抽象为多模态输入与清晰的动作空间,它有望填补基于网页的强化学习基准测试长期存在的碎片化空白。

ServiceNow 近日发布了 BrowserGym,这是一个全新的开源强化学习环境,旨在标准化 AI 智能体与网页浏览器交互的方式。BrowserGym 构建在经典的 Gym 接口之上,为训练和评估智能体执行网页导航、表单填写、数据提取等任务提供了结构化框架。该环境支持多模态输入,包括 DOM 树和屏幕截图,并为智能体输出定义了清晰的动作空间。这解决了网页自动化研究领域长期存在的碎片化问题——以往的基准测试往往是临时性的,难以直接比较。目前,BrowserGym 在 GitHub 上已获得超过 1,255 颗星,并在 AI 研究社区中逐渐获得关注。不过,该生态系统仍处于早期阶段,用户需要熟悉 Gym API。项目的核心意义在于,它为研究人员提供了一个可复现、可扩展的基准平台,有望加速基于强化学习的网页智能体研究,并推动企业级自动化应用的发展。

技术深度解析

BrowserGym 建立在 OpenAI 的 Gym 接口基础之上,后者自 2016 年以来一直是强化学习环境的事实标准。其核心创新在于将网页浏览器抽象为一个兼容 Gym 的环境。这涉及三个关键组件:观察空间、动作空间和奖励函数。

观察空间: BrowserGym 提供多模态观察,包括:
- DOM 快照: 当前网页文档对象模型(DOM)的简化、结构化表示。这不是原始 HTML,而是一个经过处理的树状结构,突出显示了按钮、链接和输入字段等交互元素。
- 屏幕截图: 浏览器可视视口的渲染图像,使智能体能够从视觉线索中学习。
- 无障碍树: 一种替代表示,以角色(例如按钮、链接、文本字段)和属性(例如标签、值、状态)来描述页面。这对于需要理解语义而不依赖像素级细节的智能体尤其有用。

动作空间: 该环境定义了一组智能体可以执行的高级动作,抽象掉了原始浏览器自动化(例如 Selenium 命令)的复杂性。这些动作包括:
- `click(element_id)`:点击 DOM 快照中由特定 ID 标识的元素。
- `type(element_id, text)`:在特定输入字段中键入文本。
- `scroll(direction, amount)`:向上或向下滚动页面。
- `navigate(url)`:导航到新的 URL。
- `wait(seconds)`:等待指定时长(对动态内容有用)。
- `select_option(element_id, option_value)`:从下拉菜单中选择一个选项。

奖励函数: 奖励是任务特定的。例如,在表单填写任务中,智能体成功提交表单可能获得正奖励,而每次不必要的导航步骤则可能获得负奖励。环境还在任务完成或失败时提供 `done` 信号。

底层架构: BrowserGym 使用 Playwright 作为其浏览器自动化后端,这是微软开发的一个现代跨浏览器库。Playwright 对 Chromium、Firefox 和 WebKit 提供了强大的支持,并提供了可靠的元素选择和事件处理。环境默认以无头模式运行,但可以配置为可视化调试。

基准测试与性能: 该项目包含一组预定义任务,例如:
- WebArena: 基于真实网页应用(例如购物、社交媒体、内容管理)的一套任务。
- MiniWoB++: 一组简化的网页任务(例如点击按钮、填写表单、拖动滑块)。

| 环境 | 任务数量 | 观察类型 | 动作空间大小 | 平均回合长度 | 成功率(随机智能体) |
|---|---|---|---|---|---|
| BrowserGym (WebArena) | 100+ | DOM + 屏幕截图 | ~50 | 30-50 步 | <1% |
| MiniWoB++ | 100 | 仅 DOM | ~20 | 10-20 步 | ~5% |
| Gym-WebArena (独立版) | 100+ | 仅 DOM | ~50 | 30-50 步 | <1% |

数据要点: 该表显示,BrowserGym 的任务比 MiniWoB++ 复杂得多,需要更长的回合,且随机成功率更低。这使其成为评估高级强化学习智能体更具挑战性和现实意义的基准。

要点总结: BrowserGym 的优势在于其模块化以及对 Gym 标准的遵循,这使得研究人员可以几乎无需修改地将任何强化学习算法(例如 PPO、DQN、SAC)接入其中。然而,对 Playwright 的依赖以及处理 DOM 快照的需求会引入延迟,这可能成为训练的瓶颈。未来的优化方向可能包括缓存 DOM 状态或使用更高效的序列化格式。

关键参与者与案例研究

BrowserGym 由 ServiceNow 开发,这是一家以企业 IT 服务管理(ITSM)和工作流自动化平台闻名的公司。ServiceNow 对网页自动化的兴趣具有战略意义:其核心产品依赖于自动化通常涉及网页界面的业务流程(例如填写表单、从门户检索数据、管理工单)。通过开源 BrowserGym,ServiceNow 不仅为研究社区做出了贡献,还为自己吸引了顶尖 AI 人才并影响了网页智能体发展方向。

竞品解决方案:

| 解决方案 | 开发者 | 类型 | 关键特性 | 开源 |
|---|---|---|---|---|
| BrowserGym | ServiceNow | 强化学习环境 | 多模态,兼容 Gym | 是 |
| WebArena | 华盛顿大学 | 基准测试 | 真实网页应用 | 是 |
| MiniWoB++ | OpenAI | 基准测试 | 简化任务 | 是 |
| Selenium | 开源 | 自动化工具 | 直接浏览器控制 | 是 |
| Puppeteer | Google | 自动化工具 | 无头 Chrome 控制 | 是 |
| Playwright | 微软 | 自动化工具 | 跨浏览器,可靠 | 是 |
| AutoGPT | Significant Gravitas | 大语言模型智能体 | 自主任务规划 | 是 |

数据要点: BrowserGym 是唯一一个专门为强化学习设计的、兼容 Gym 的网页自动化环境,这使其与传统的自动化工具和基准测试区分开来。它的多模态观察和标准化接口为训练更智能、更鲁棒的网页智能体提供了独特优势。

更多来自 GitHub

AB Download Manager:开源下载工具以速度挑战商业巨头AB Download Manager(GitHub 仓库:amir1376/ab-download-manager)已成为下载管理领域一款引人注目的开源替代方案。其核心技术创新——多线程分段下载——将文件分割成多个块并同时下载,显著减少大NCL:邻域增强对比学习如何重塑图协同过滤推荐范式图协同过滤(GCF)一直是现代推荐引擎的基石,LightGCN 通过将图卷积简化为纯邻域聚合,树立了高性能标杆。然而,即便 LightGCN 也难以应对冷启动问题和长尾物品——在这些场景中,交互数据过于稀疏,无法学习有意义的嵌入表示。发表于无标题The repository `wilsenvesakha/uts_bigdata_wilsenvesakha_ncl_experiment` is an experimental fork of the RUCAIBox/NCL proj查看来源专题页GitHub 已收录 2866 篇文章

相关专题

reinforcement learning99 篇相关文章

时间归档

June 20262043 篇已发布文章

延伸阅读

Stable-WorldModel:世界模型研究可复现性缺失的标准化基石Galilai Group 发布开源平台 Stable-WorldModel,旨在为世界模型研究与评估建立统一标准。该项目上线首日即斩获 GitHub 1733 颗星,凸显了强化学习与机器人领域对可复现基准测试的迫切需求。CodeRL:Salesforce如何用强化学习教会AI写代码在NeurIPS 2022上亮相的CodeRL,是Salesforce Research提出的一套创新框架,它将预训练语言模型与深度强化学习深度融合,以单元测试通过率作为奖励信号,大幅提升代码生成的正确性。这一方法标志着从静态监督微调向动态Safe-Control-Gym:安全关键型强化学习基准测试的新标杆一款名为 safe-control-gym 的全新开源基准测试平台,将 PyBullet 物理引擎与 CasADi 符号动力学深度融合,为安全关键型强化学习与控制研究打造了标准化试验场。它直指机器人及自主系统中约束策略可重复评估的迫切需求,KataGo Custom Fork Opens New Front in AI Alignment Research via GoA new GitHub repository, katago-custom, forks the powerful Go AI KataGo to create a controlled environment for AI alignm

常见问题

GitHub 热点“BrowserGym: ServiceNow's Open-Source Gym for Web Task Automation Agents”主要讲了什么?

ServiceNow's BrowserGym is a new open-source reinforcement learning environment that standardizes the way AI agents interact with web browsers. Built on the classic Gym interface…

这个 GitHub 项目在“How to install and run BrowserGym locally”上为什么会引发关注?

BrowserGym is built on the foundation of OpenAI's Gym interface, which has been the de facto standard for RL environments since 2016. The core innovation is the abstraction of a web browser into a Gym-compatible environm…

从“BrowserGym vs WebArena: which is better for training web agents”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 1255,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。