Vercel发布Agent Browser:为AI智能体打通与现实网络交互的关键桥梁

⭐ 24397📈 +247
Vercel Labs近日推出革命性开源工具Agent Browser,让AI智能体首次获得对网页浏览器的程序化控制能力。这一突破解决了AI代理开发中的核心瓶颈——与动态可视化网络世界的可靠交互,为从研究到自动化的各类实际任务铺平道路。

云平台与前端框架巨头Vercel的实验部门Vercel Labs,近日发布了一个关键的开源项目:Agent Browser。这并非又一个语言模型或微调框架,而是一块至关重要的基础设施——一个允许AI智能体通过命令行程序化控制无头Chromium浏览器的接口工具。该项目在GitHub上呈现爆发式增长,短短数日即收获超过24,000颗星标,充分展现了开发者群体对解决网络交互难题的强烈兴趣。

其核心价值主张极具实用性。虽然大语言模型在推理和规划方面表现出色,但它们本质上是“无实体”的。它们缺乏查看网页、点击按钮、滚动页面或填写表单的能力。此前弥合这一鸿沟的尝试往往依赖于脆弱的适配层。Agent Browser通过提供标准化接口,直接赋予智能体“眼睛”和“手”,使其能够像人类一样感知和操作现代网页。

该项目基于成熟的Puppeteer技术构建,但通过HTTP暴露了一个简化的、兼容WebDriver的JSON-RPC API。这种设计确保了与众多现有自动化工具和AI框架的广泛兼容性。更重要的是,它不仅返回成功/失败代码,还能提供完整的DOM树、计算出的无障碍功能树以及至关重要的网页截图。对于GPT-4V、Claude 3等视觉语言模型或开源替代品而言,这些截图提供了理解复杂现代网页界面所必需的丰富视觉上下文,这些界面仅靠HTML无法完全表征。

Agent Browser的发布,直接挑战并补充了自动化及AI智能体领域的多个现有参与者。它并非要取代Playwright或Puppeteer这些底层引擎,而是将其复杂性抽象为AI可访问的API。同时,它也为Browserless等云浏览器服务提供了本地化、免费的私有化替代方案。从战略角度看,这是Vercel继集成AI SDK和收购生成式UI工具`v0`后的又一关键布局,旨在构建从Next.js前端开发、Vercel平台部署到AI智能体自动化操作的完整生态闭环。

技术深度解析

Agent Browser的架构设计优雅而务实,它建立在现有浏览器自动化技术的坚实基础上,并增加了针对AI的优化。其核心是通过Puppeteer运行一个真实的Chromium实例,但通过HTTP暴露一个简化的、兼容WebDriver的JSON-RPC API。这一设计选择至关重要:它确保了与能够进行HTTP通信的各种现有自动化工具和AI框架的兼容性。

CLI工具启动一个本地服务器,成为智能体通往网络世界的网关。AI智能体可以发送如`Page.navigate`、`Input.click`或`Input.type`等命令。然而,使Agent Browser特别适合AI的关键在于其观察能力。它不仅返回成功/失败代码,还能返回完整的DOM树、计算出的无障碍功能树,以及最重要的——屏幕截图。对于像GPT-4V、Claude 3或开源替代品这样的视觉语言模型,这些截图提供了理解复杂现代网页界面所需的丰富视觉上下文,这些界面仅靠HTML无法完全表征。

一项关键的技术创新是其对元素选择的处理方式。Agent Browser不依赖脆弱的CSS或XPath选择器(这些选择器会因微小的UI更改而失效),而是可以返回带有边界框的交互元素列表。具备视觉能力的AI智能体随后可以根据元素的视觉位置和语义标签来推理应与哪个元素交互,从而模拟类人的交互方式。项目的`@agentbrowser/sdk`包进一步简化了集成,为Node.js环境提供了类型化的客户端。

性能是智能体系统的关键指标,延迟会在数十个操作中累积。早期的社区基准测试凸显了其中的权衡。

| 操作 | Agent Browser (本地) | 云浏览器服务 (典型) | 纯HTML获取/解析 |
|---|---|---|---|
| 页面加载与截图 | 1200-2500 毫秒 | 2000-4000 毫秒 + 网络延迟 | 300-800 毫秒 |
| DOM + 无障碍功能树 | +100-300 毫秒 | 包含在加载时间内 | 包含在获取时间内 |
| 单次点击操作 | 200-500 毫秒 | 500-1000 毫秒 | 不适用 |
| 完整任务 (例如登录) | ~4000-6000 毫秒 | ~8000-12000 毫秒 | 通常无法实现 |

数据要点: 对于顺序任务,本地运行的Agent Browser相比基于云的浏览器自动化服务具有2-3倍的延迟优势,这对智能体的响应能力至关重要。然而,它本质上比简单的HTTP请求慢,这凸显了其价值在于实现纯HTTP无法完成的交互。

主要参与者与案例研究

Agent Browser的发布直接挑战并补充了自动化和AI智能体领域的几个现有参与者。

直接竞争对手与替代方案:
- Playwright & Puppeteer: 这些是Agent Browser*底层*的强大引擎。然而,它们是面向开发者的库,需要编写大量代码。Agent Browser将其复杂性抽象为AI可访问的API。
- Selenium/WebDriver: 测试自动化的行业标准。Agent Browser兼容WebDriver的API意味着它可以融入某些现有的Selenium工作流,但它针对的是AI智能体的无状态命令-响应模式,而非传统测试的有状态脚本,并为此进行了优化。
- Browserless, Selenium Grid 云服务: 这些服务提供可扩展的、托管的浏览器自动化。Agent Browser提供了一个免费的、本地的、私有的替代方案,尽管没有内置的扩展能力。
- 自定义解决方案: 许多AI智能体项目(例如`smolagents`、`AutoGPT`变体)已经构建了自己的临时浏览器控制器。Agent Browser旨在成为标准化的、由社区维护的替代方案。

Vercel的战略定位: Vercel此举并非孤立行动。它紧随AI SDK的集成和收购生成式UI工具`v0`的步伐。通过提供Agent Browser,Vercel正在构建一个引人注目的套件:使用Next.js构建前端,在Vercel上部署,现在可以使用他们的工具通过AI智能体自动化执行其上的任务(或任何其他网络资产)。这创造了一个强大的生态锁定效应。

案例研究 - AI研究助手: 考虑一个用LangChain和GPT-4构建的智能体。以前,要总结arXiv上的一篇研究论文,它需要通过API获取PDF。要查找相关工作,它可能会遇到困难。集成Agent Browser后,可以指示同一个智能体:“前往Google Scholar,搜索论文X,点击‘被引用’链接,提取前10篇引用论文的标题。” 这就创建了一个无缝的、多步骤的研究工作流程,能够像人类一样与网络交互。

| 工具/项目 | 主要焦点 | AI智能体优化程度 | 集成便利性 | 视觉支持 |
|---|---|---|---|---|
| Vercel Agent Browser | AI智能体浏览器控制 | 高 (专为智能体设计) | 高 (CLI + HTTP API) | 原生支持 (截图) |
| Playwright | 通用浏览器自动化 | 低 | 中 (库) | 可通过附加组件实现 |

延伸阅读

Vercel推出Portless:彻底告别端口号,重塑人类与AI智能体的本地开发体验Vercel Labs近日开源Portless工具,通过抽象化数字端口号,从根本上重构本地开发流程。该工具为本地服务提供稳定的命名URL,旨在简化人类开发者与日益增长的AI编程智能体生态的工作流,直击现代Web开发中长期存在的痛点。Dev-Browser:Claude 的新网页导航技能如何重新定义 AI 智能体能力边界Dev-Browser 标志着 AI 智能体能力的一次重大飞跃,它让 Claude 能够通过自然语言指令直接与网页浏览器交互。这项技能将 AI 从对话伙伴转变为能导航、填表、提取数据的主动网络操作者,弥合了语言模型与动态网络环境之间的鸿沟。Expect框架:AI智能体如何超越传统脚本,掀起浏览器测试革命由millionco开发的Expect框架正引领Web应用测试的新范式:将控制权直接交给AI智能体。开发者无需编写脆弱的确定性脚本,而是通过自然语言指令,让AI在真实浏览器环境中探索和验证应用,有望实现更自适应、更全面的质量保障。Hugging Face推出smolagents:为何代码优先的AI智能体正在颠覆自然语言推理范式Hugging Face近日发布了smolagents——一个极简主义AI智能体构建库,其核心理念是让智能体用代码“思考”。这标志着AI智能体架构的根本性转向:从主流自然语言框架转向以可执行Python代码作为推理与行动的首要媒介,旨在构建

常见问题

GitHub 热点“Vercel's Agent Browser Bridges the Critical Gap Between AI Agents and the Real Web”主要讲了什么?

Vercel Labs, the experimental arm of the cloud platform and frontend framework giant, has launched a pivotal open-source project: Agent Browser. This is not another language model…

这个 GitHub 项目在“how to integrate Agent Browser with LangChain”上为什么会引发关注?

Agent Browser's architecture is elegantly pragmatic, built on the robust shoulders of existing browser automation technology while adding AI-specific optimizations. At its heart, it runs a real Chromium instance via Pupp…

从“Agent Browser vs Puppeteer for AI projects”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 24397,近一日增长约为 247,这说明它在开源社区具有较强讨论度和扩散能力。