BrowserGym：ServiceNow 开源打造网页任务自动化智能体的标准训练场

Q: 从“BrowserGym vs WebArena: which is better for training web agents”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 1255，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。

ServiceNow 近日发布了 BrowserGym，这是一个全新的开源强化学习环境，旨在标准化 AI 智能体与网页浏览器交互的方式。BrowserGym 构建在经典的 Gym 接口之上，为训练和评估智能体执行网页导航、表单填写、数据提取等任务提供了结构化框架。该环境支持多模态输入，包括 DOM 树和屏幕截图，并为智能体输出定义了清晰的动作空间。这解决了网页自动化研究领域长期存在的碎片化问题——以往的基准测试往往是临时性的，难以直接比较。目前，BrowserGym 在 GitHub 上已获得超过 1,255 颗星，并在 AI 研究社区中逐渐获得关注。不过，该生态系统仍处于早期阶段，用户需要熟悉 Gym API。项目的核心意义在于，它为研究人员提供了一个可复现、可扩展的基准平台，有望加速基于强化学习的网页智能体研究，并推动企业级自动化应用的发展。

技术深度解析

BrowserGym 建立在 OpenAI 的 Gym 接口基础之上，后者自 2016 年以来一直是强化学习环境的事实标准。其核心创新在于将网页浏览器抽象为一个兼容 Gym 的环境。这涉及三个关键组件：观察空间、动作空间和奖励函数。

观察空间： BrowserGym 提供多模态观察，包括：
- DOM 快照： 当前网页文档对象模型（DOM）的简化、结构化表示。这不是原始 HTML，而是一个经过处理的树状结构，突出显示了按钮、链接和输入字段等交互元素。
- 屏幕截图： 浏览器可视视口的渲染图像，使智能体能够从视觉线索中学习。
- 无障碍树： 一种替代表示，以角色（例如按钮、链接、文本字段）和属性（例如标签、值、状态）来描述页面。这对于需要理解语义而不依赖像素级细节的智能体尤其有用。

动作空间： 该环境定义了一组智能体可以执行的高级动作，抽象掉了原始浏览器自动化（例如 Selenium 命令）的复杂性。这些动作包括：
- `click(element_id)`：点击 DOM 快照中由特定 ID 标识的元素。
- `type(element_id, text)`：在特定输入字段中键入文本。
- `scroll(direction, amount)`：向上或向下滚动页面。
- `navigate(url)`：导航到新的 URL。
- `wait(seconds)`：等待指定时长（对动态内容有用）。
- `select_option(element_id, option_value)`：从下拉菜单中选择一个选项。

奖励函数： 奖励是任务特定的。例如，在表单填写任务中，智能体成功提交表单可能获得正奖励，而每次不必要的导航步骤则可能获得负奖励。环境还在任务完成或失败时提供 `done` 信号。

底层架构： BrowserGym 使用 Playwright 作为其浏览器自动化后端，这是微软开发的一个现代跨浏览器库。Playwright 对 Chromium、Firefox 和 WebKit 提供了强大的支持，并提供了可靠的元素选择和事件处理。环境默认以无头模式运行，但可以配置为可视化调试。

基准测试与性能： 该项目包含一组预定义任务，例如：
- WebArena： 基于真实网页应用（例如购物、社交媒体、内容管理）的一套任务。
- MiniWoB++： 一组简化的网页任务（例如点击按钮、填写表单、拖动滑块）。

| 环境 | 任务数量 | 观察类型 | 动作空间大小 | 平均回合长度 | 成功率（随机智能体） |
|---|---|---|---|---|---|
| BrowserGym (WebArena) | 100+ | DOM + 屏幕截图 | ~50 | 30-50 步 | <1% |
| MiniWoB++ | 100 | 仅 DOM | ~20 | 10-20 步 | ~5% |
| Gym-WebArena (独立版) | 100+ | 仅 DOM | ~50 | 30-50 步 | <1% |

数据要点： 该表显示，BrowserGym 的任务比 MiniWoB++ 复杂得多，需要更长的回合，且随机成功率更低。这使其成为评估高级强化学习智能体更具挑战性和现实意义的基准。

要点总结： BrowserGym 的优势在于其模块化以及对 Gym 标准的遵循，这使得研究人员可以几乎无需修改地将任何强化学习算法（例如 PPO、DQN、SAC）接入其中。然而，对 Playwright 的依赖以及处理 DOM 快照的需求会引入延迟，这可能成为训练的瓶颈。未来的优化方向可能包括缓存 DOM 状态或使用更高效的序列化格式。

关键参与者与案例研究

BrowserGym 由 ServiceNow 开发，这是一家以企业 IT 服务管理（ITSM）和工作流自动化平台闻名的公司。ServiceNow 对网页自动化的兴趣具有战略意义：其核心产品依赖于自动化通常涉及网页界面的业务流程（例如填写表单、从门户检索数据、管理工单）。通过开源 BrowserGym，ServiceNow 不仅为研究社区做出了贡献，还为自己吸引了顶尖 AI 人才并影响了网页智能体发展方向。

竞品解决方案：

| 解决方案 | 开发者 | 类型 | 关键特性 | 开源 |
|---|---|---|---|---|
| BrowserGym | ServiceNow | 强化学习环境 | 多模态，兼容 Gym | 是 |
| WebArena | 华盛顿大学 | 基准测试 | 真实网页应用 | 是 |
| MiniWoB++ | OpenAI | 基准测试 | 简化任务 | 是 |
| Selenium | 开源 | 自动化工具 | 直接浏览器控制 | 是 |
| Puppeteer | Google | 自动化工具 | 无头 Chrome 控制 | 是 |
| Playwright | 微软 | 自动化工具 | 跨浏览器，可靠 | 是 |
| AutoGPT | Significant Gravitas | 大语言模型智能体 | 自主任务规划 | 是 |

数据要点： BrowserGym 是唯一一个专门为强化学习设计的、兼容 Gym 的网页自动化环境，这使其与传统的自动化工具和基准测试区分开来。它的多模态观察和标准化接口为训练更智能、更鲁棒的网页智能体提供了独特优势。

时间归档

延伸阅读

常见问题

GitHub 热点“BrowserGym: ServiceNow's Open-Source Gym for Web Task Automation Agents”主要讲了什么？

ServiceNow's BrowserGym is a new open-source reinforcement learning environment that standardizes the way AI agents interact with web browsers. Built on the classic Gym interface…

这个 GitHub 项目在“How to install and run BrowserGym locally”上为什么会引发关注？

BrowserGym is built on the foundation of OpenAI's Gym interface, which has been the de facto standard for RL environments since 2016. The core innovation is the abstraction of a web browser into a Gym-compatible environm…

从“BrowserGym vs WebArena: which is better for training web agents”看，这个 GitHub 项目的热度表现如何？