技术深度解析
Mobilerun 的架构是“智能体”范式在移动环境中的教科书式应用。系统由三个层次组成:感知层、推理层和执行层。
感知层: 智能体通过 Android 的无障碍服务 API 捕获当前设备状态,该 API 提供 UI 元素的结构化树(包含节点边界、文本、内容描述和可点击标志)。同时,它会截取屏幕截图。这两个输入——一个 XML 转储(通常转换为简化的 JSON)和一个 base64 编码的图像——被馈送给 LLM。多模态能力至关重要:LLM 必须视觉上识别 XML 可能遗漏的元素(例如图像、自定义视图或动态内容)。
推理层: LLM 接收一个系统提示,定义智能体的角色、可用操作(点击、滑动、输入、长按、返回、主页等)以及当前屏幕状态。模型输出一个结构化的操作计划,通常采用 JSON 格式,指定操作及其参数(例如 `{"action": "tap", "coordinates": [540, 1200]}`)。推理是迭代的:每次操作后,智能体重新捕获屏幕并重新查询 LLM,形成闭环反馈循环。这类似于 Google 的 SayCan 推广、后被 AutoGPT 和 BabyAGI 等项目采用的 ReAct(推理+行动)模式。
执行层: 解析后的操作通过 Android 的 `adb`(Android 调试桥)命令或直接通过无障碍服务执行。该项目底层使用 `uiautomator2` 实现可靠的触摸事件。执行层还处理错误恢复:如果点击失败(例如元素未找到),智能体可以重试或请求 LLM 重新规划。
基准测试表现: 项目维护者发布了一个包含 50 个常见任务(例如设置闹钟、发送短信、打开特定应用、切换 Wi-Fi)的自定义基准测试的初步结果。结果与脚本基线(Appium)和纯 XML 智能体(无截图)的对比如下。
| 方法 | 任务成功率 | 每任务平均步骤数 | 每步平均延迟 | 每任务成本(GPT-4o) |
|---|---|---|---|---|
| Appium 脚本(人工编写) | 96% | 4.2 | 0.1s | $0.00 |
| Mobilerun(GPT-4o,多模态) | 74% | 6.8 | 3.2s | $0.08 |
| Mobilerun(Claude 3.5 Sonnet,多模态) | 71% | 7.1 | 2.9s | $0.06 |
| Mobilerun(Qwen2-VL-7B,本地) | 52% | 9.5 | 1.8s | $0.00(本地) |
| 纯 XML 智能体(GPT-4o,无截图) | 58% | 8.3 | 2.1s | $0.05 |
数据要点: 多模态输入(截图+XML)相比纯 XML 提升了 16 个百分点的成功率,但即使是最好的 LLM 智能体(GPT-4o)也比人工编写的脚本落后 22 个百分点。延迟仍是主要瓶颈:每一步需要 2-3 秒,使多步骤任务显得迟缓。像 Qwen2-VL-7B 这样的本地模型提供零 API 成本,但准确率显著较低,凸显了成本与能力之间的权衡。
开源生态系统: GitHub 上的 Mobilerun 仓库(droidrun/mobilerun)自 2025 年 1 月以来开发活跃,拥有 45 位贡献者和 12 个版本。代码库基于 Python,文档完善,并包含一个用于自定义操作处理器的插件系统。一个值得注意的相关仓库是腾讯的 `AppAgent`(2.3k Star),它采用类似的 LLM 驱动方法,但专注于 iOS。另一个是微软的 `Mobile-Agent`(1.8k Star),它采用多智能体架构处理复杂工作流。Mobilerun 的差异化在于其明确的 LLM 无关设计以及通过 Ollama 对本地模型的支持。
关键参与者与案例研究
Mobilerun 在 LLM 驱动的移动自动化领域并非孤例。几个主要参与者和研究团队正在追求类似目标,各有不同的权衡。
| 产品/项目 | 开发者 | LLM 依赖 | 平台 | 关键差异化 | GitHub Star |
|---|---|---|---|---|---|
| Mobilerun | 社区(droidrun) | 无关(任意 LLM) | Android | LLM 无关,支持本地模型 | 8,220 |
| AppAgent | 腾讯 AI Lab | 仅 GPT-4V | iOS, Android | 多模态(仅视觉),无 XML | 2,300 |
| Mobile-Agent | 微软研究院 | GPT-4o | Android | 多智能体规划,任务分解 | 1,800 |
| AutoDroid | 芝加哥大学 | GPT-4 | Android | 聚焦 GUI 接地,操作分类 | 900 |
| Apple Intelligence(设备端) | Apple | 专有 | iOS | 设备端,注重隐私,范围有限 | 不适用(闭源) |
案例研究:腾讯的 AppAgent – AppAgent 于 2024 年底发布,采用纯视觉方法:它不使用 XML 转储,而是完全依赖截图和 GPT-4V 的视觉推理来识别 UI 元素。这使得它对非标准 UI 框架更具鲁棒性,但成本显著更高(GPT-4V 每百万输入 token 成本约 $10,而 GPT-4o 为 $5)。在内部测试中,AppAgent 在类似任务上实现了 68% 的成功率,略低于 Mobilerun 的 74%。