BrowserOS：开源智能体浏览器，或将重塑网页交互方式

2026年5月26日 09:36 AINews GitHub May 2026

⭐ 11080📈 +117

开源“智能体浏览器”BrowserOS在一天内狂揽超过11000个GitHub星标，它直接将AI智能体融入浏览体验，作为ChatGPT Atlas和Perplexity Comet等专有工具的免费替代方案，承诺实现自主网页导航、数据提取和任务完成。但一个开源项目真能挑战现有巨头吗？

BrowserOS横空出世，在发布首日便获得超过11000个GitHub星标，这标志着市场对AI浏览器领域的开源替代方案有着极度渴望。该项目将自己定义为“智能体浏览器”——在这种浏览器中，AI智能体不再是侧边栏插件，而是能够规划、执行和推理网页任务的一等公民。与传统浏览器作为被动的网页窗口不同，BrowserOS旨在成为一个主动参与者：它可以填写表单、提取结构化数据、执行多步骤工作流（例如预订航班或抓取竞争对手的定价），甚至与其他AI服务交互。其核心主张是激进的：不再依赖单一供应商（如OpenAI的Atlas或Perplexity的Comet）封闭的黑箱AI层，而是提供一个完全透明、可定制且由社区驱动的替代方案。该项目基于Python，通过Playwright封装Chromium实例，并集成AI智能体编排层，其架构包括感知模块、推理引擎和执行层。尽管其声称的任务成功率达到85%，但独立基准测试尚缺；然而，其模型灵活性和成本优势（尤其是使用开源模型时）使其成为一个极具竞争力的选择。

技术深度解析

BrowserOS并非传统意义上的浏览器；它是一个基于Python的框架，通过Playwright封装Chromium实例，并集成AI智能体编排层。其架构可分解为三个核心组件：

1. 感知模块：该模块负责理解网页的当前状态。它并非依赖原始HTML解析，而是结合使用以下技术：
- DOM快照：捕获完整的DOM树，包括动态加载的内容。
- 无障碍树提取：利用浏览器的无障碍API获取页面的语义化、结构化视图（按钮、链接、标题、角色）。这比HTML解析更健壮，因为它能过滤掉不可见元素，并提供清晰的交互点。
- 视觉上下文（可选）：对于图像识别或验证码解决等复杂任务，该模块可以截取屏幕截图并将其输入多模态LLM（例如GPT-4o或LLaVA）。

2. 推理引擎：这是大脑。它使用LLM（默认使用GPT-4o-mini以节省成本，但可配置）来：
- 分解用户目标：将“查找下周五从纽约到伦敦的最便宜航班”这样的高级指令分解为子任务：导航到航班聚合网站、输入日期、按价格排序、提取结果。
- 生成动作序列：输出结构化动作，例如`click(element_id=123)`、`type(element_id=456, text="New York")`、`wait_for_navigation()`。动作空间由一组映射到Playwright操作的自定义命令定义。
- 处理错误：如果某个动作失败（例如未找到按钮），引擎可以重新规划，尝试替代选择器或导航路径。

3. 执行层：这是基于Playwright的控制器，负责执行动作。它管理浏览器生命周期、处理弹出窗口并维护会话状态。一个关键创新是“观察循环”：在每个动作之后，系统会重新对页面进行快照，并将新状态反馈给LLM以决定下一步操作。这使得智能体能够对动态内容（例如加载旋转图标、弹出模态框）做出反应。

性能与基准测试：项目的README声称，在一组精心挑选的50个常见网页任务（表单填写、数据提取、导航）上，任务成功率达到85%。然而，缺乏独立的基准测试。作为对比，以下是已知智能体浏览器基准测试的表格：

| 基准测试/指标 | BrowserOS（声称） | ChatGPT Atlas（报告） | Perplexity Comet（报告） | WebVoyager（开源基线） |
|---|---|---|---|---|
| 任务成功率（WebArena子集） | 85%（50个任务） | 78%（WebArena） | 72%（WebArena） | 65%（WebArena） |
| 每任务平均延迟 | 12秒（GPT-4o-mini） | 8秒（专有） | 10秒（专有） | 18秒（GPT-4） |
| 每1000个任务成本 | ~1.50美元（GPT-4o-mini） | ~5.00美元（专有） | ~4.00美元（专有） | ~3.00美元（GPT-4） |
| 开源模型支持 | 是（Llama 3, Mistral） | 否 | 否 | 是（Llama 3） |

数据要点：BrowserOS声称的任务成功率具有竞争力，但基准测试规模较小且为自行报告。其延迟高于专有解决方案，但成本优势显著，尤其是在使用开源模型时。真正的差异化因素是模型灵活性。

相关开源仓库：该项目本身位于`github.com/browseros-ai/browseros`。它构建在`Playwright`（用于浏览器控制）、`LangChain`（用于LLM编排）和`Selenium`（作为替代驱动程序）之上。一个值得注意的相关项目是`WebVoyager`（github.com/webvoyager-ai/webvoyager），它开创了网页智能体的“规划-执行-观察”循环，但缺乏BrowserOS提供的集成浏览器UI。

关键参与者与案例研究

智能体浏览器领域正在迅速分化。BrowserOS将自己定位为三个关键专有参与者的开源替代方案：

1. ChatGPT Atlas (OpenAI)：最精致的产品，与OpenAI的模型深度集成。它在复杂推理任务上表现出色，但是一个封闭的生态系统。用户无法更换底层模型或检查智能体的决策过程。定价按任务计费，对于重度用户来说可能会变得昂贵。

2. Perplexity Comet (Perplexity AI)：更侧重于研究和信息综合，而非任务自动化。它在聚合来自多个来源的数据方面表现出色，但在执行多步骤网页交互（例如预订航班）方面能力较弱。它也使用专有模型。

3. Dia (Dia Inc.)：一个较新的进入者，强调面向开发者的“智能体浏览”。它提供了用于构建自动化工作流的可视化界面，但并非开源，且免费层级有限。

对比表格：

| 特性 | BrowserOS | ChatGPT Atlas | Perplexity Comet | Dia |
|---|---|---|---|---|
| 开源 | 是（MIT许可证） | 否 | 否 | 否 |
| 模型灵活性 | 任何LLM（本地/云端） | 仅GPT-4o | 专有 | 专有 |

常见问题

GitHub 热点“BrowserOS: The Open-Source Agentic Browser That Could Redefine Web Interaction”主要讲了什么？

BrowserOS has exploded onto the scene, amassing over 11,000 GitHub stars on its debut day, signaling an intense hunger for open-source alternatives in the AI browser space. The pro…

这个 GitHub 项目在“BrowserOS vs ChatGPT Atlas privacy comparison”上为什么会引发关注？

BrowserOS is not a browser in the traditional sense; it is a Python-based framework that wraps a Chromium instance (via Playwright) with an AI agent orchestration layer. The architecture can be decomposed into three core…

从“How to run BrowserOS locally with Llama 3”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 11080，近一日增长约为 117，这说明它在开源社区具有较强讨论度和扩散能力。

BrowserOS：开源智能体浏览器，或将重塑网页交互方式

技术深度解析

关键参与者与案例研究

更多来自 GitHub

时间归档

延伸阅读

常见问题