Rotunda火狐分支:模拟人类打字,将AI代理成本砍掉一个数量级

Hacker News May 2026
来源:Hacker News归档:May 2026
Rotunda,一款专为AI代理打造的火狐浏览器分支,正开创一种全新范式:通过原生浏览器DOM事件模拟人类敲击键盘和点击鼠标,而非依赖昂贵的截图分析。这一方法有望将运营成本降低一个数量级,并重新定义自主代理与网页交互的方式。

AINews独家分析了Rotunda,一个开源的Firefox分支,旨在优化AI代理与网页的交互。其核心创新简单却颠覆性:不再依赖处理截图并推断像素坐标的昂贵“计算机使用”模型,Rotunda允许代理直接操作浏览器的文档对象模型(DOM),并触发合成但类人化的输入事件。这意味着代理可以通过向DOM元素发送文本字符串来“键入”表单字段,而不是在渲染图像上移动光标。其结果是计算开销的戏剧性降低——消除了高分辨率截图捕获、视觉模型推理和坐标映射的需求。早期基准测试表明,Rotunda可将每次交互的成本降低50至100倍,延迟降低4至6倍,在结构化表单上的准确率提升10至15个百分点。对于每月处理100万次表单交互的企业,成本差距可达2000美元(Rotunda)对比15万美元以上(Browser-use),从根本上改变了自动化项目的投资回报率计算。

技术深度解析

Rotunda的架构堪称务实工程的典范。其核心是一个基于Gecko渲染引擎的Firefox修改版,为AI代理暴露了自定义API。关键创新在于合成输入引擎(SIE),该模块拦截代理命令并将其转换为浏览器视为与人类输入无异的原生DOM事件。

工作原理

1. DOM定位:代理接收的不是截图,而是页面的结构化表示——一个简化的DOM树,包含元素ID、类型和可访问性标签。其大小仅为5-10 KB,而截图则需2-4 MB。
2. 命令解析:代理输出高级指令,如`fill_form_field(field_id="email", value="user@example.com")`。
3. 事件合成:SIE为每个字符创建一系列低级浏览器事件:`focus`、`keydown`、`keypress`、`input`、`keyup`。这些事件直接分派到目标DOM元素,绕过渲染管线。
4. 类人化时序:为避免被反机器人系统检测,Rotunda在击键之间引入可配置的微延迟(默认:50-150毫秒),并加入打字速度的细微变化,模拟人类行为。

关键的技术优势在于Rotunda从不将完整页面渲染为位图。浏览器的合成器和GPU基本处于空闲状态,从而降低功耗和延迟。对于一个包含10个字段的典型表单,计算机使用模型可能需要10-20张截图(每次API调用成本约0.01美元)加上视觉模型推理(每张图像0.005美元)。Rotunda仅需一次DOM快照和少量文本命令即可完成整个任务,成本约为0.0005美元。

相关开源项目

Rotunda建立在网络自动化领域的多个现有项目之上:

- Playwright(微软):支持基于DOM交互的浏览器自动化库。Rotunda通过添加类人化时序和与浏览器引擎的更深集成,扩展了Playwright的概念。Playwright在GitHub上拥有68k+星标。
- Puppeteer(谷歌):与Playwright类似,但专注于Chrome。Rotunda的方法可移植到Chromium,但团队选择了Firefox,因其更宽松的许可协议和模块化架构。
- Browser-use:一个流行的AI代理开源框架,使用截图。Rotunda直接与此方法竞争,提供10倍的成本降低。Browser-use拥有25k+星标。

性能基准测试

| 指标 | 计算机使用模型(GPT-4V + 截图) | Rotunda(DOM + 合成输入) | 改进幅度 |
|---|---|---|---|
| 每次表单填写成本(10个字段) | $0.15 - $0.25 | $0.002 - $0.005 | 降低50-100倍 |
| 每次交互延迟 | 3-8秒 | 0.5-1.5秒 | 快4-6倍 |
| 结构化表单准确率 | 85-92% | 97-99% | +10-15% |
| 所需页面渲染 | 完整(GPU/CPU) | 最低(仅DOM) | 减少90%计算量 |
| 反机器人检测风险 | 高(截图易被指纹识别) | 低(事件与人类无异) | 显著优势 |

数据要点: 成本和延迟优势如此巨大,以至于Rotunda实际上使计算机使用模型在处理结构化网页元素的任务中变得过时。准确率的提升尤为显著——通过直接操作DOM,Rotunda避免了视觉解读的歧义性(例如,将下拉菜单误读为文本字段)。

关键参与者与案例研究

Rotunda团队

Rotunda由一支小型独立团队开发,成员包括前Mozilla工程师和AI研究员。首席开发者Elena Vasquez博士此前曾参与Firefox无障碍引擎的开发,这使她对DOM事件处理有深刻见解。该项目目前处于测试阶段,公开的GitHub仓库(rotunda-browser/rotunda)在三个月内获得了12,000颗星标。团队尚未公布融资情况,但消息人士称他们正在与多家企业自动化公司洽谈。

竞争格局

| 产品 | 方法 | 每千次交互成本 | 准确率(表单填写) | 开源 |
|---|---|---|---|---|
| Rotunda | DOM + 合成事件 | $2 - $5 | 97-99% | 是 |
| Browser-use | 截图 + 视觉模型 | $150 - $250 | 85-92% | 是 |
| Anthropic Computer Use | 截图 + Claude视觉 | $200 - $300 | 88-93% | 否(API) |
| OpenAI Operator | 截图 + GPT-4V | $180 - $250 | 86-91% | 否(API) |
| UiPath AI Agent | 混合(DOM + 截图) | $50 - $100 | 93-96% | 否 |

数据要点: Rotunda的成本优势并非边际性的——它比次优选项整整便宜一个数量级。对于每月处理100万次表单交互的公司,成本差异为2000美元(Rotunda)对比15万美元以上(Browser-use)。这从根本上改变了自动化项目的投资回报率计算。

案例研究:金融科技自动化

一家中等规模的金融科技公司NexPay此前使用Browser-use来自动化贷款申请处理。

更多来自 Hacker News

Claude Code与Codex嵌入GitHub和Linear:AI代理成为原生工作流组件在一项重新定义AI在软件开发中角色的举措中,Claude Code和Codex已直接嵌入GitHub Issues和Linear工单。此前,开发者必须手动将任务描述、代码片段和上下文复制粘贴到AI聊天窗口,再将输出结果搬运回IDE和版本控制从工具到伙伴:“流程主人”范式重塑人机协作一项开创性实验展示了一种全新的人机协作范式,将 AI 代理从被动的指令跟随者转变为主动的“流程主人”。其核心创新是一个“执行-学习”循环,从结构上分离了人类判断与机器执行。该实验专为潜在客户生成等高风险的跨日任务设计,解决了当前代理的一个关NotGen.AI:一场押注人类诚实而非AI检测算法的激进赌局NotGen.AI推出了一套极简信任机制,允许创作者通过一个简单链接声明内容“非AI生成”。配套工具authorial.cx/ask更进一步,将问题从“谁创作了它”转变为“谁审核了它”——承认在AI辅助创作时代,人类的角色已从生产者转变为策查看来源专题页Hacker News 已收录 3360 篇文章

时间归档

May 20261467 篇已发布文章

延伸阅读

Claude Code 借道 Ollama 本地推理,AI 编程成本骤降 90% —— 新经济模式诞生通过将 Claude Code 的 API 调用路由至 Ollama 本地推理框架,开发者可将 AI 编程助手的成本削减约 90%。这一技术方案以近乎为零的本地算力成本替代了云端 Token 计费模式,将 AI 编程从奢侈品转变为初创公司、DOM即接口:为何AI智能体应浏览网页,而非调用API当前将AI智能体集成至网络应用的主流模式——构建专用简化API——正面临根本性挑战。一种更具说服力的替代方案提出:浏览器自身的文档对象模型(DOM)才是最强大、现成的通用接口。通过像人类用户一样学习观察与操纵DOM,AI智能体可绕过巨大的工Claude Design数据删除政策曝光AI订阅陷阱:用户创作沦为“租赁资产”一位用户取消Claude Design订阅五个月后,发现所有项目数据永久无法访问。与主流AI工具保留用户历史不同,该平台将创意产出与付费状态直接绑定,引发信任危机,暴露出AI商业策略中令人不安的转向。AI 写出生产级 Rust RAR 解码器:编译器化身代码审查官一款名为 Rars 的新 Rust 库能够解压 RAR 归档文件,而其几乎全部代码均由 AI 生成。该项目证明,大型语言模型如今已能胜任复杂的系统级软件开发,而 Rust 编译器则扮演了严苛的代码审查者角色。

常见问题

GitHub 热点“Rotunda Firefox Fork Slashes AI Agent Costs by Simulating Human Typing”主要讲了什么?

AINews has exclusively analyzed Rotunda, an open-source Firefox fork designed to optimize AI agent interaction with web pages. The core innovation is simple yet disruptive: instead…

这个 GitHub 项目在“Rotunda vs Browser-use cost comparison 2025”上为什么会引发关注?

Rotunda’s architecture is a masterclass in pragmatic engineering. At its core, it is a modified version of Firefox (based on the Gecko rendering engine) that exposes a custom API for AI agents. The key innovation is the…

从“How Rotunda Firefox fork bypasses CAPTCHA”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 0,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。