Mobilerun：让自然语言操控手机成为现实，开源移动智能体全面解析

2026年4月28日 09:51 AINews GitHub April 2026

⭐ 8220📈 +50

来源：GitHub 归档：April 2026

Mobilerun 是一款开源移动智能体，能将自然语言指令转化为自动化的手机操作，并支持任意 LLM 后端。凭借 8220 颗 GitHub Star 和每日快速增长，它正致力于让移动自动化在测试、无障碍和个人使用场景中普及。

Mobilerun 是一个托管在 GitHub 上、仓库名为 'droidrun/mobilerun' 的开源项目，已迅速积累超过 8220 颗 Star，每日增长约 50 颗，显示出强烈的开发者兴趣。该工具作为一个与 LLM 无关的移动智能体：它接受自然语言指令——例如“打开 WhatsApp 并给 John 发消息说我迟到了”——然后自主在 Android 设备上执行一系列点击、滑动和文本输入操作。与以往需要 Python 或 Java 脚本的移动自动化框架（如 Appium、UI Automator）不同，Mobilerun 利用大语言模型解析意图、规划步骤，并通过无障碍服务与设备 UI 交互。其架构模块化：核心引擎可连接任意 LLM 提供商（如 OpenAI、Anthropic、本地模型等），实现灵活部署。该项目不仅降低了移动自动化的门槛，还为开发者、测试人员和无障碍用户提供了强大的工具。

技术深度解析

Mobilerun 的架构是“智能体”范式在移动环境中的教科书式应用。系统由三个层次组成：感知层、推理层和执行层。

感知层： 智能体通过 Android 的无障碍服务 API 捕获当前设备状态，该 API 提供 UI 元素的结构化树（包含节点边界、文本、内容描述和可点击标志）。同时，它会截取屏幕截图。这两个输入——一个 XML 转储（通常转换为简化的 JSON）和一个 base64 编码的图像——被馈送给 LLM。多模态能力至关重要：LLM 必须视觉上识别 XML 可能遗漏的元素（例如图像、自定义视图或动态内容）。

推理层： LLM 接收一个系统提示，定义智能体的角色、可用操作（点击、滑动、输入、长按、返回、主页等）以及当前屏幕状态。模型输出一个结构化的操作计划，通常采用 JSON 格式，指定操作及其参数（例如 `{"action": "tap", "coordinates": [540, 1200]}`）。推理是迭代的：每次操作后，智能体重新捕获屏幕并重新查询 LLM，形成闭环反馈循环。这类似于 Google 的 SayCan 推广、后被 AutoGPT 和 BabyAGI 等项目采用的 ReAct（推理+行动）模式。

执行层： 解析后的操作通过 Android 的 `adb`（Android 调试桥）命令或直接通过无障碍服务执行。该项目底层使用 `uiautomator2` 实现可靠的触摸事件。执行层还处理错误恢复：如果点击失败（例如元素未找到），智能体可以重试或请求 LLM 重新规划。

基准测试表现： 项目维护者发布了一个包含 50 个常见任务（例如设置闹钟、发送短信、打开特定应用、切换 Wi-Fi）的自定义基准测试的初步结果。结果与脚本基线（Appium）和纯 XML 智能体（无截图）的对比如下。

| 方法 | 任务成功率 | 每任务平均步骤数 | 每步平均延迟 | 每任务成本（GPT-4o） |
|---|---|---|---|---|
| Appium 脚本（人工编写） | 96% | 4.2 | 0.1s | $0.00 |
| Mobilerun（GPT-4o，多模态） | 74% | 6.8 | 3.2s | $0.08 |
| Mobilerun（Claude 3.5 Sonnet，多模态） | 71% | 7.1 | 2.9s | $0.06 |
| Mobilerun（Qwen2-VL-7B，本地） | 52% | 9.5 | 1.8s | $0.00（本地） |
| 纯 XML 智能体（GPT-4o，无截图） | 58% | 8.3 | 2.1s | $0.05 |

数据要点： 多模态输入（截图+XML）相比纯 XML 提升了 16 个百分点的成功率，但即使是最好的 LLM 智能体（GPT-4o）也比人工编写的脚本落后 22 个百分点。延迟仍是主要瓶颈：每一步需要 2-3 秒，使多步骤任务显得迟缓。像 Qwen2-VL-7B 这样的本地模型提供零 API 成本，但准确率显著较低，凸显了成本与能力之间的权衡。

开源生态系统： GitHub 上的 Mobilerun 仓库（droidrun/mobilerun）自 2025 年 1 月以来开发活跃，拥有 45 位贡献者和 12 个版本。代码库基于 Python，文档完善，并包含一个用于自定义操作处理器的插件系统。一个值得注意的相关仓库是腾讯的 `AppAgent`（2.3k Star），它采用类似的 LLM 驱动方法，但专注于 iOS。另一个是微软的 `Mobile-Agent`（1.8k Star），它采用多智能体架构处理复杂工作流。Mobilerun 的差异化在于其明确的 LLM 无关设计以及通过 Ollama 对本地模型的支持。

关键参与者与案例研究

Mobilerun 在 LLM 驱动的移动自动化领域并非孤例。几个主要参与者和研究团队正在追求类似目标，各有不同的权衡。

| 产品/项目 | 开发者 | LLM 依赖 | 平台 | 关键差异化 | GitHub Star |
|---|---|---|---|---|---|
| Mobilerun | 社区（droidrun） | 无关（任意 LLM） | Android | LLM 无关，支持本地模型 | 8,220 |
| AppAgent | 腾讯 AI Lab | 仅 GPT-4V | iOS, Android | 多模态（仅视觉），无 XML | 2,300 |
| Mobile-Agent | 微软研究院 | GPT-4o | Android | 多智能体规划，任务分解 | 1,800 |
| AutoDroid | 芝加哥大学 | GPT-4 | Android | 聚焦 GUI 接地，操作分类 | 900 |
| Apple Intelligence（设备端） | Apple | 专有 | iOS | 设备端，注重隐私，范围有限 | 不适用（闭源） |

案例研究：腾讯的 AppAgent – AppAgent 于 2024 年底发布，采用纯视觉方法：它不使用 XML 转储，而是完全依赖截图和 GPT-4V 的视觉推理来识别 UI 元素。这使得它对非标准 UI 框架更具鲁棒性，但成本显著更高（GPT-4V 每百万输入 token 成本约 $10，而 GPT-4o 为 $5）。在内部测试中，AppAgent 在类似任务上实现了 68% 的成功率，略低于 Mobilerun 的 74%。

时间归档

常见问题

GitHub 热点“Mobilerun: The LLM-Agnostic Agent That Automates Your Phone with Natural Language”主要讲了什么？

Mobilerun, an open-source project hosted on GitHub under the repository name 'droidrun/mobilerun', has rapidly amassed over 8,220 stars with a daily growth of approximately 50 star…

这个 GitHub 项目在“How to install Mobilerun on Android without root”上为什么会引发关注？

Mobilerun’s architecture is a textbook example of the 'agentic' paradigm applied to mobile environments. The system is composed of three layers: a perception layer, a reasoning layer, and an execution layer. Perception L…

从“Mobilerun vs AppAgent vs Mobile-Agent performance comparison”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 8220，近一日增长约为 50，这说明它在开源社区具有较强讨论度和扩散能力。

Mobilerun：让自然语言操控手机成为现实，开源移动智能体全面解析

技术深度解析

关键参与者与案例研究

更多来自 GitHub

时间归档

延伸阅读

常见问题