技术深度解析
Rotunda的架构堪称务实工程的典范。其核心是一个基于Gecko渲染引擎的Firefox修改版,为AI代理暴露了自定义API。关键创新在于合成输入引擎(SIE),该模块拦截代理命令并将其转换为浏览器视为与人类输入无异的原生DOM事件。
工作原理
1. DOM定位:代理接收的不是截图,而是页面的结构化表示——一个简化的DOM树,包含元素ID、类型和可访问性标签。其大小仅为5-10 KB,而截图则需2-4 MB。
2. 命令解析:代理输出高级指令,如`fill_form_field(field_id="email", value="user@example.com")`。
3. 事件合成:SIE为每个字符创建一系列低级浏览器事件:`focus`、`keydown`、`keypress`、`input`、`keyup`。这些事件直接分派到目标DOM元素,绕过渲染管线。
4. 类人化时序:为避免被反机器人系统检测,Rotunda在击键之间引入可配置的微延迟(默认:50-150毫秒),并加入打字速度的细微变化,模拟人类行为。
关键的技术优势在于Rotunda从不将完整页面渲染为位图。浏览器的合成器和GPU基本处于空闲状态,从而降低功耗和延迟。对于一个包含10个字段的典型表单,计算机使用模型可能需要10-20张截图(每次API调用成本约0.01美元)加上视觉模型推理(每张图像0.005美元)。Rotunda仅需一次DOM快照和少量文本命令即可完成整个任务,成本约为0.0005美元。
相关开源项目
Rotunda建立在网络自动化领域的多个现有项目之上:
- Playwright(微软):支持基于DOM交互的浏览器自动化库。Rotunda通过添加类人化时序和与浏览器引擎的更深集成,扩展了Playwright的概念。Playwright在GitHub上拥有68k+星标。
- Puppeteer(谷歌):与Playwright类似,但专注于Chrome。Rotunda的方法可移植到Chromium,但团队选择了Firefox,因其更宽松的许可协议和模块化架构。
- Browser-use:一个流行的AI代理开源框架,使用截图。Rotunda直接与此方法竞争,提供10倍的成本降低。Browser-use拥有25k+星标。
性能基准测试
| 指标 | 计算机使用模型(GPT-4V + 截图) | Rotunda(DOM + 合成输入) | 改进幅度 |
|---|---|---|---|
| 每次表单填写成本(10个字段) | $0.15 - $0.25 | $0.002 - $0.005 | 降低50-100倍 |
| 每次交互延迟 | 3-8秒 | 0.5-1.5秒 | 快4-6倍 |
| 结构化表单准确率 | 85-92% | 97-99% | +10-15% |
| 所需页面渲染 | 完整(GPU/CPU) | 最低(仅DOM) | 减少90%计算量 |
| 反机器人检测风险 | 高(截图易被指纹识别) | 低(事件与人类无异) | 显著优势 |
数据要点: 成本和延迟优势如此巨大,以至于Rotunda实际上使计算机使用模型在处理结构化网页元素的任务中变得过时。准确率的提升尤为显著——通过直接操作DOM,Rotunda避免了视觉解读的歧义性(例如,将下拉菜单误读为文本字段)。
关键参与者与案例研究
Rotunda团队
Rotunda由一支小型独立团队开发,成员包括前Mozilla工程师和AI研究员。首席开发者Elena Vasquez博士此前曾参与Firefox无障碍引擎的开发,这使她对DOM事件处理有深刻见解。该项目目前处于测试阶段,公开的GitHub仓库(rotunda-browser/rotunda)在三个月内获得了12,000颗星标。团队尚未公布融资情况,但消息人士称他们正在与多家企业自动化公司洽谈。
竞争格局
| 产品 | 方法 | 每千次交互成本 | 准确率(表单填写) | 开源 |
|---|---|---|---|---|
| Rotunda | DOM + 合成事件 | $2 - $5 | 97-99% | 是 |
| Browser-use | 截图 + 视觉模型 | $150 - $250 | 85-92% | 是 |
| Anthropic Computer Use | 截图 + Claude视觉 | $200 - $300 | 88-93% | 否(API) |
| OpenAI Operator | 截图 + GPT-4V | $180 - $250 | 86-91% | 否(API) |
| UiPath AI Agent | 混合(DOM + 截图) | $50 - $100 | 93-96% | 否 |
数据要点: Rotunda的成本优势并非边际性的——它比次优选项整整便宜一个数量级。对于每月处理100万次表单交互的公司,成本差异为2000美元(Rotunda)对比15万美元以上(Browser-use)。这从根本上改变了自动化项目的投资回报率计算。
案例研究:金融科技自动化
一家中等规模的金融科技公司NexPay此前使用Browser-use来自动化贷款申请处理。