阿里开源Page-Agent:浏览器内嵌AI智能体,用自然语言重塑网页自动化

GitHub March 2026
⭐ 12956📈 +931
来源:GitHub归档:March 2026
阿里巴巴近日开源了Page-Agent,这是一个将大语言模型直接嵌入浏览器的JavaScript框架,允许用户通过自然语言指令控制任意网站界面。这项技术彻底改变了人机交互方式,仅需简单对话即可自动化执行复杂的多步骤任务。项目在GitHub上迅速获得关注,显示出开发者社区的浓厚兴趣。

Page-Agent代表了人机交互领域的一次重大演进,它超越了需要编写脚本或录制操作的传统自动化工具。该框架由阿里巴巴工程团队开发,完全在浏览器上下文内运行,利用JavaScript弥合了自然语言理解与DOM操作之间的鸿沟。与基于服务器的自动化解决方案不同,Page-Agent在本地执行,既提供了隐私优势,也消除了界面交互的网络延迟。

其核心创新在于双LLM架构:一个模型负责解读用户意图并生成分步行动计划,另一个模型则根据当前页面状态验证每一步操作,以确保可靠性。这种方法使Page-Agent能够处理动态网页内容,适应现代Web应用不断变化的界面。项目文档显示,在处理涉及动态内容的复杂多步骤任务时,其成功率显著高于传统RPA方案,尽管在简单、确定性的工作流上,脚本自动化仍略占优势。

该框架构建于多个开源基础之上,包括用于浏览器控制的Playwright、用于LLM编排的LangChain.js,并可能利用Microsoft的Guidance来生成结构化输出。其GitHub仓库显示开发活跃,近期提交专注于改进错误恢复能力,并支持更复杂的UI模式,如拖放操作和无限滚动。Page-Agent的独特定位在于,它结合了客户端执行的隐私优势与复杂AI规划的适应能力,使其介于企业级RPA工具和通用AI助手之间,为网页自动化开辟了新的可能性。

技术深度解析

Page-Agent的架构代表了多种AI与Web技术的精妙集成。其核心是一个完全用JavaScript构建的分层规划-执行框架,使其能够在标准浏览器环境中运行,无需依赖外部服务器进行基本操作。

技术栈主要由三个核心组件构成:
1. 观察模块:持续监控DOM状态,提取页面元素的语义信息,包括其类型、可见性、文本内容及层级关系。该模块创建了一个为LLM消费优化的结构化页面表示。
2. 规划模块:使用轻量级LLM(可能是量化或蒸馏模型,如Llama 3.2-3B或Qwen2.5-Coder-1.5B)来解读用户指令,并生成一系列原子操作序列。规划过程实时进行,并能适应意外的页面变化。
3. 执行与验证模块:通过浏览器自动化API执行生成的操作,同时在继续下一步之前持续验证每个操作是否产生预期结果。

一项关键创新是自我纠正机制,它能检测操作失败或产生意外结果的情况。当这种情况发生时,Page-Agent可以重新分析页面状态并调整策略,类似于人类在与陌生界面交互时从错误中恢复的过程。

该框架通过标准化API支持多种LLM后端,允许开发者在基于云的模型(GPT-4、Claude 3.5)与本地运行的开源替代方案之间选择。对于注重隐私的应用,系统可配置为使用WebAssembly编译的模型在客户端处理所有数据。

项目文档中最近的基准测试显示了令人印象深刻的性能指标:

| 任务复杂度 | 成功率 | 平均耗时 | 传统RPA成功率 |
|---|---|---|---|
| 简单(1-3步) | 94.2% | 3.1秒 | 98.5% |
| 中等(4-7步) | 87.6% | 8.7秒 | 82.3% |
| 复杂(8步以上) | 73.4% | 18.2秒 | 41.8% |
| 动态内容处理 | 68.9% | 12.5秒 | 22.1% |

数据洞察:Page-Agent在处理涉及动态内容的复杂多步骤任务上表现出色,这正是传统RPA解决方案的短板。然而,在简单、确定性的工作流上,它略逊于脚本自动化,后者在此类任务上表现更优。

该项目基于多个开源基础构建,包括用于浏览器控制的Playwright、用于LLM编排的LangChain.js,并可能利用Microsoft的Guidance来生成结构化输出。其GitHub仓库显示开发活跃,近期提交专注于改进错误恢复能力,并支持更复杂的UI模式,如拖放操作和无限滚动。

关键参与者与案例研究

网页自动化领域正在经历快速变革,多种技术路径竞相涌现:

传统RPA巨头:UiPath和Automation Anywhere等公司主导企业自动化市场,但严重依赖录制的宏和预定义的工作流。这些解决方案擅长重复性的后台办公任务,但在处理动态Web界面时力不从心,且需要大量技术专业知识来实施。

原生AI挑战者:多家初创公司正追求与Page-Agent相似的愿景。Cognition Labs的Devin代表了目前最先进的通用AI智能体,能够执行包括网页交互在内的复杂软件开发任务。OpenAI具备浏览能力的GPTs提供了一种功能相对有限但更易访问的方案。Microsoft的Copilot for Web直接集成到Edge浏览器中,但其自动化能力更为受限。

开源替代方案OpenWebUI项目提供了一个构建基于浏览器的AI界面的框架,而Browser-use则提供了更简单的自然语言自动化功能。然而,Page-Agent凭借其全面的错误处理和验证机制脱颖而出。

| 解决方案 | 架构 | 核心优势 | 主要用例 | 定价模式 |
|---|---|---|---|---|
| Alibaba Page-Agent | 客户端JavaScript | 隐私与动态内容处理 | 通用网页自动化 | 开源 |
| UiPath | 桌面/服务器混合 | 企业集成能力 | 后台办公RPA | 订阅制 |
| Cognition Devin | 基于云的智能体 | 复杂问题解决 | 软件开发 | 基于API |
| OpenAI Browsing | 云API | 内容分析 | 研究与摘要 | 基于Token |
| Playwright + AI | 开发者框架 | 定制灵活性 | 测试与爬虫 | 开源 |

数据洞察:Page-Agent占据了一个独特的位置,它结合了客户端执行的隐私优势与复杂AI规划的适应能力,使其定位于企业RPA工具与通用AI助手之间。

阿里巴巴的实施方案展示了多个已在测试中的实际应用:
- 电商工作流自动化:例如,用户可以说“帮我在这个网站上找到最便宜的无线耳机,加入购物车,并使用我的默认地址结账”,Page-Agent将自动执行整个流程。
- 数据提取与聚合:从多个来源收集信息并整理成结构化格式,无需编写定制爬虫。
- 无障碍辅助:为残障用户提供更自然的网页导航方式,超越传统的屏幕阅读器。
- 自动化测试:通过自然语言描述测试场景,自动生成并执行测试用例。

这些案例突显了Page-Agent在降低自动化门槛、处理非结构化任务以及适应不断变化的网页界面方面的潜力。随着项目的成熟和生态系统的扩展,它可能成为连接人类意图与数字服务的关键桥梁,最终使互联网对每个人都更加可访问和高效。

更多来自 GitHub

AI驱动的协议分析:Anything Analyzer如何重写逆向工程规则GitHub上以mouseww/anything-analyzer为名的项目迅速蹿红,已获2,417颗星,单日增幅达+788,反映出开发者对逆向工程、安全与自动化领域的强烈兴趣。该工具利用Chrome DevTools Protocol (微软Data Formulator:自然语言能否取代拖拽式数据分析?微软的Data Formulator现已登陆GitHub,收获超过15000颗星,它代表了人类与数据交互方式的范式转变。用户无需再与数据透视表、拖拽式界面或Matplotlib等Python库搏斗,只需输入一句如“按地区显示月度销售趋势并添Andrej Karpathy 的 GitHub 技能树:一份重新定义 AI 可信度的趣味简历GitHub 仓库 'vtroiswhite/andrej-karpathy-skills' 以结构化且幽默的技能树形式呈现了 Andrej Karpathy 庞大的技术储备,成功激发了 AI 社区的想象力。该仓库仅以一个简单的 Markd查看来源专题页GitHub 已收录 1709 篇文章

时间归档

March 20262347 篇已发布文章

延伸阅读

字节跳动UI-TARS改写GUI自动化:原生智能体终结OCR与RPA时代字节跳动开源了UI-TARS,一个基于原生智能体架构的GUI自动化框架,无需OCR或坐标脚本即可直接感知和操控图形界面。这标志着从规则驱动的RPA向视觉语言驱动的自主交互的范式转变。ByteDance's UI-TARS Desktop: The Open-Source Agent Stack That Could Redefine GUI AutomationByteDance has open-sourced UI-TARS Desktop, a multimodal AI agent stack that bridges cutting-edge vision-language modelsOpenRelay:免费AI模型聚合平台颠覆开发者经济生态OpenRelay,一个轻量级开源项目,通过单一API端点为开发者提供数百种免费AI模型配额。该工具旨在大幅降低AI实验门槛,但其可靠性与可扩展性仍存核心争议。Yao Open Prompts 重新定义中文AI提示工程标准中国AI生态长期缺乏标准化的高质量提示工程资源库。Yao Open Prompts 以社区驱动的方式填补了这一空白,为中文用户优化大语言模型交互提供了系统性方案。本文深入解析这一快速增长资源的技术价值与行业影响。

常见问题

GitHub 热点“Alibaba's Page-Agent Redefines Web Automation with In-Browser AI Agents”主要讲了什么?

Page-Agent represents a significant evolution in human-computer interaction, moving beyond traditional automation tools that require scripting or recording. Developed by Alibaba's…

这个 GitHub 项目在“how to install alibaba page agent locally”上为什么会引发关注?

Page-Agent's architecture represents a sophisticated integration of multiple AI and web technologies. At its core, the system employs a hierarchical planning-execution framework built entirely in JavaScript, allowing it…

从“page agent vs traditional rpa performance comparison”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 12956,近一日增长约为 931,这说明它在开源社区具有较强讨论度和扩散能力。