BrowserOS:开源智能体浏览器,或将重塑网页交互方式

GitHub May 2026
⭐ 11080📈 +117
来源:GitHub归档:May 2026
开源“智能体浏览器”BrowserOS在一天内狂揽超过11000个GitHub星标,它直接将AI智能体融入浏览体验,作为ChatGPT Atlas和Perplexity Comet等专有工具的免费替代方案,承诺实现自主网页导航、数据提取和任务完成。但一个开源项目真能挑战现有巨头吗?

BrowserOS横空出世,在发布首日便获得超过11000个GitHub星标,这标志着市场对AI浏览器领域的开源替代方案有着极度渴望。该项目将自己定义为“智能体浏览器”——在这种浏览器中,AI智能体不再是侧边栏插件,而是能够规划、执行和推理网页任务的一等公民。与传统浏览器作为被动的网页窗口不同,BrowserOS旨在成为一个主动参与者:它可以填写表单、提取结构化数据、执行多步骤工作流(例如预订航班或抓取竞争对手的定价),甚至与其他AI服务交互。其核心主张是激进的:不再依赖单一供应商(如OpenAI的Atlas或Perplexity的Comet)封闭的黑箱AI层,而是提供一个完全透明、可定制且由社区驱动的替代方案。该项目基于Python,通过Playwright封装Chromium实例,并集成AI智能体编排层,其架构包括感知模块、推理引擎和执行层。尽管其声称的任务成功率达到85%,但独立基准测试尚缺;然而,其模型灵活性和成本优势(尤其是使用开源模型时)使其成为一个极具竞争力的选择。

技术深度解析

BrowserOS并非传统意义上的浏览器;它是一个基于Python的框架,通过Playwright封装Chromium实例,并集成AI智能体编排层。其架构可分解为三个核心组件:

1. 感知模块:该模块负责理解网页的当前状态。它并非依赖原始HTML解析,而是结合使用以下技术:
- DOM快照:捕获完整的DOM树,包括动态加载的内容。
- 无障碍树提取:利用浏览器的无障碍API获取页面的语义化、结构化视图(按钮、链接、标题、角色)。这比HTML解析更健壮,因为它能过滤掉不可见元素,并提供清晰的交互点。
- 视觉上下文(可选):对于图像识别或验证码解决等复杂任务,该模块可以截取屏幕截图并将其输入多模态LLM(例如GPT-4o或LLaVA)。

2. 推理引擎:这是大脑。它使用LLM(默认使用GPT-4o-mini以节省成本,但可配置)来:
- 分解用户目标:将“查找下周五从纽约到伦敦的最便宜航班”这样的高级指令分解为子任务:导航到航班聚合网站、输入日期、按价格排序、提取结果。
- 生成动作序列:输出结构化动作,例如`click(element_id=123)`、`type(element_id=456, text="New York")`、`wait_for_navigation()`。动作空间由一组映射到Playwright操作的自定义命令定义。
- 处理错误:如果某个动作失败(例如未找到按钮),引擎可以重新规划,尝试替代选择器或导航路径。

3. 执行层:这是基于Playwright的控制器,负责执行动作。它管理浏览器生命周期、处理弹出窗口并维护会话状态。一个关键创新是“观察循环”:在每个动作之后,系统会重新对页面进行快照,并将新状态反馈给LLM以决定下一步操作。这使得智能体能够对动态内容(例如加载旋转图标、弹出模态框)做出反应。

性能与基准测试:项目的README声称,在一组精心挑选的50个常见网页任务(表单填写、数据提取、导航)上,任务成功率达到85%。然而,缺乏独立的基准测试。作为对比,以下是已知智能体浏览器基准测试的表格:

| 基准测试/指标 | BrowserOS(声称) | ChatGPT Atlas(报告) | Perplexity Comet(报告) | WebVoyager(开源基线) |
|---|---|---|---|---|
| 任务成功率(WebArena子集) | 85%(50个任务) | 78%(WebArena) | 72%(WebArena) | 65%(WebArena) |
| 每任务平均延迟 | 12秒(GPT-4o-mini) | 8秒(专有) | 10秒(专有) | 18秒(GPT-4) |
| 每1000个任务成本 | ~1.50美元(GPT-4o-mini) | ~5.00美元(专有) | ~4.00美元(专有) | ~3.00美元(GPT-4) |
| 开源模型支持 | 是(Llama 3, Mistral) | 否 | 否 | 是(Llama 3) |

数据要点:BrowserOS声称的任务成功率具有竞争力,但基准测试规模较小且为自行报告。其延迟高于专有解决方案,但成本优势显著,尤其是在使用开源模型时。真正的差异化因素是模型灵活性。

相关开源仓库:该项目本身位于`github.com/browseros-ai/browseros`。它构建在`Playwright`(用于浏览器控制)、`LangChain`(用于LLM编排)和`Selenium`(作为替代驱动程序)之上。一个值得注意的相关项目是`WebVoyager`(github.com/webvoyager-ai/webvoyager),它开创了网页智能体的“规划-执行-观察”循环,但缺乏BrowserOS提供的集成浏览器UI。

关键参与者与案例研究

智能体浏览器领域正在迅速分化。BrowserOS将自己定位为三个关键专有参与者的开源替代方案:

1. ChatGPT Atlas (OpenAI):最精致的产品,与OpenAI的模型深度集成。它在复杂推理任务上表现出色,但是一个封闭的生态系统。用户无法更换底层模型或检查智能体的决策过程。定价按任务计费,对于重度用户来说可能会变得昂贵。

2. Perplexity Comet (Perplexity AI):更侧重于研究和信息综合,而非任务自动化。它在聚合来自多个来源的数据方面表现出色,但在执行多步骤网页交互(例如预订航班)方面能力较弱。它也使用专有模型。

3. Dia (Dia Inc.):一个较新的进入者,强调面向开发者的“智能体浏览”。它提供了用于构建自动化工作流的可视化界面,但并非开源,且免费层级有限。

对比表格

| 特性 | BrowserOS | ChatGPT Atlas | Perplexity Comet | Dia |
|---|---|---|---|---|
| 开源 | 是(MIT许可证) | 否 | 否 | 否 |
| 模型灵活性 | 任何LLM(本地/云端) | 仅GPT-4o | 专有 | 专有 |

更多来自 GitHub

Pyribs:解锁质量多样性优化潜能的极简主义Python库质量多样性优化(Quality Diversity Optimization)是一种不仅追求单一高性能解,而是寻找多样化高性能解集合的范式,长期以来在机器人与游戏AI领域扮演着小众但强大的角色。由南加州大学(USC)研究人员开发的开源库PyEvoTorch:NNAISENSE 打造的原生 PyTorch 进化库,正在重塑 AI 优化格局EvoTorch 并非又一个普通的进化算法(EA)库;它是对深度学习领域日益增长的可扩展、梯度感知优化需求的一种深思熟虑的架构回应。由以神经进化和强化学习(RL)研究闻名的瑞士 AI 公司 NNAISENSE 开发,EvoTorch 直接构OpenAI订阅协议被破解:揭秘突破hCaptcha的支付漏洞工具danops-1/gpt-agreement-payment仓库在一天内获得超过1700颗星,代表了迄今为止对OpenAI订阅基础设施最全面的公开分析。该工具包实现了ChatGPT Plus/Team/Pro支付协议的全端到端重放,从初始请查看来源专题页GitHub 已收录 2246 篇文章

时间归档

May 20262832 篇已发布文章

延伸阅读

BrowserOS Agent: The Modular AI That Wants to Control Your BrowserBrowserOS Agent, a submodule of the larger BrowserOS project, aims to turn your browser into an operating system for AI 微软Playwright以跨浏览器自动化统治力,重新定义Web测试格局微软Playwright已从相对默默无闻中崛起,从根本上重塑了Web测试与自动化的版图。凭借其覆盖Chromium、Firefox和WebKit的统一API,以及对开发者体验的极致专注,它正在取代传统工具,并为现代Web开发流程中的可靠性与自愈浏览器框架如何破解LLM自动化“脆弱性”难题开源框架Browser Harness正试图解决AI驱动网络自动化中最顽固的挑战——脆弱性。它通过自愈架构动态适应页面变化与元素失效,有望让基于大语言模型的智能体足够稳健,胜任真实世界任务。这标志着从脆弱的脚本自动化向韧性智能操作的根本性转Dev-Browser:Claude 的新网页导航技能如何重新定义 AI 智能体能力边界Dev-Browser 标志着 AI 智能体能力的一次重大飞跃,它让 Claude 能够通过自然语言指令直接与网页浏览器交互。这项技能将 AI 从对话伙伴转变为能导航、填表、提取数据的主动网络操作者,弥合了语言模型与动态网络环境之间的鸿沟。

常见问题

GitHub 热点“BrowserOS: The Open-Source Agentic Browser That Could Redefine Web Interaction”主要讲了什么?

BrowserOS has exploded onto the scene, amassing over 11,000 GitHub stars on its debut day, signaling an intense hunger for open-source alternatives in the AI browser space. The pro…

这个 GitHub 项目在“BrowserOS vs ChatGPT Atlas privacy comparison”上为什么会引发关注?

BrowserOS is not a browser in the traditional sense; it is a Python-based framework that wraps a Chromium instance (via Playwright) with an AI agent orchestration layer. The architecture can be decomposed into three core…

从“How to run BrowserOS locally with Llama 3”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 11080,近一日增长约为 117,这说明它在开源社区具有较强讨论度和扩散能力。