Mobilerun:让自然语言操控手机成为现实,开源移动智能体全面解析

GitHub April 2026
⭐ 8220📈 +50
来源:GitHub归档:April 2026
Mobilerun 是一款开源移动智能体,能将自然语言指令转化为自动化的手机操作,并支持任意 LLM 后端。凭借 8220 颗 GitHub Star 和每日快速增长,它正致力于让移动自动化在测试、无障碍和个人使用场景中普及。

Mobilerun 是一个托管在 GitHub 上、仓库名为 'droidrun/mobilerun' 的开源项目,已迅速积累超过 8220 颗 Star,每日增长约 50 颗,显示出强烈的开发者兴趣。该工具作为一个与 LLM 无关的移动智能体:它接受自然语言指令——例如“打开 WhatsApp 并给 John 发消息说我迟到了”——然后自主在 Android 设备上执行一系列点击、滑动和文本输入操作。与以往需要 Python 或 Java 脚本的移动自动化框架(如 Appium、UI Automator)不同,Mobilerun 利用大语言模型解析意图、规划步骤,并通过无障碍服务与设备 UI 交互。其架构模块化:核心引擎可连接任意 LLM 提供商(如 OpenAI、Anthropic、本地模型等),实现灵活部署。该项目不仅降低了移动自动化的门槛,还为开发者、测试人员和无障碍用户提供了强大的工具。

技术深度解析

Mobilerun 的架构是“智能体”范式在移动环境中的教科书式应用。系统由三个层次组成:感知层推理层执行层

感知层: 智能体通过 Android 的无障碍服务 API 捕获当前设备状态,该 API 提供 UI 元素的结构化树(包含节点边界、文本、内容描述和可点击标志)。同时,它会截取屏幕截图。这两个输入——一个 XML 转储(通常转换为简化的 JSON)和一个 base64 编码的图像——被馈送给 LLM。多模态能力至关重要:LLM 必须视觉上识别 XML 可能遗漏的元素(例如图像、自定义视图或动态内容)。

推理层: LLM 接收一个系统提示,定义智能体的角色、可用操作(点击、滑动、输入、长按、返回、主页等)以及当前屏幕状态。模型输出一个结构化的操作计划,通常采用 JSON 格式,指定操作及其参数(例如 `{"action": "tap", "coordinates": [540, 1200]}`)。推理是迭代的:每次操作后,智能体重新捕获屏幕并重新查询 LLM,形成闭环反馈循环。这类似于 Google 的 SayCan 推广、后被 AutoGPT 和 BabyAGI 等项目采用的 ReAct(推理+行动)模式。

执行层: 解析后的操作通过 Android 的 `adb`(Android 调试桥)命令或直接通过无障碍服务执行。该项目底层使用 `uiautomator2` 实现可靠的触摸事件。执行层还处理错误恢复:如果点击失败(例如元素未找到),智能体可以重试或请求 LLM 重新规划。

基准测试表现: 项目维护者发布了一个包含 50 个常见任务(例如设置闹钟、发送短信、打开特定应用、切换 Wi-Fi)的自定义基准测试的初步结果。结果与脚本基线(Appium)和纯 XML 智能体(无截图)的对比如下。

| 方法 | 任务成功率 | 每任务平均步骤数 | 每步平均延迟 | 每任务成本(GPT-4o) |
|---|---|---|---|---|
| Appium 脚本(人工编写) | 96% | 4.2 | 0.1s | $0.00 |
| Mobilerun(GPT-4o,多模态) | 74% | 6.8 | 3.2s | $0.08 |
| Mobilerun(Claude 3.5 Sonnet,多模态) | 71% | 7.1 | 2.9s | $0.06 |
| Mobilerun(Qwen2-VL-7B,本地) | 52% | 9.5 | 1.8s | $0.00(本地) |
| 纯 XML 智能体(GPT-4o,无截图) | 58% | 8.3 | 2.1s | $0.05 |

数据要点: 多模态输入(截图+XML)相比纯 XML 提升了 16 个百分点的成功率,但即使是最好的 LLM 智能体(GPT-4o)也比人工编写的脚本落后 22 个百分点。延迟仍是主要瓶颈:每一步需要 2-3 秒,使多步骤任务显得迟缓。像 Qwen2-VL-7B 这样的本地模型提供零 API 成本,但准确率显著较低,凸显了成本与能力之间的权衡。

开源生态系统: GitHub 上的 Mobilerun 仓库(droidrun/mobilerun)自 2025 年 1 月以来开发活跃,拥有 45 位贡献者和 12 个版本。代码库基于 Python,文档完善,并包含一个用于自定义操作处理器的插件系统。一个值得注意的相关仓库是腾讯的 `AppAgent`(2.3k Star),它采用类似的 LLM 驱动方法,但专注于 iOS。另一个是微软的 `Mobile-Agent`(1.8k Star),它采用多智能体架构处理复杂工作流。Mobilerun 的差异化在于其明确的 LLM 无关设计以及通过 Ollama 对本地模型的支持。

关键参与者与案例研究

Mobilerun 在 LLM 驱动的移动自动化领域并非孤例。几个主要参与者和研究团队正在追求类似目标,各有不同的权衡。

| 产品/项目 | 开发者 | LLM 依赖 | 平台 | 关键差异化 | GitHub Star |
|---|---|---|---|---|---|
| Mobilerun | 社区(droidrun) | 无关(任意 LLM) | Android | LLM 无关,支持本地模型 | 8,220 |
| AppAgent | 腾讯 AI Lab | 仅 GPT-4V | iOS, Android | 多模态(仅视觉),无 XML | 2,300 |
| Mobile-Agent | 微软研究院 | GPT-4o | Android | 多智能体规划,任务分解 | 1,800 |
| AutoDroid | 芝加哥大学 | GPT-4 | Android | 聚焦 GUI 接地,操作分类 | 900 |
| Apple Intelligence(设备端) | Apple | 专有 | iOS | 设备端,注重隐私,范围有限 | 不适用(闭源) |

案例研究:腾讯的 AppAgent – AppAgent 于 2024 年底发布,采用纯视觉方法:它不使用 XML 转储,而是完全依赖截图和 GPT-4V 的视觉推理来识别 UI 元素。这使得它对非标准 UI 框架更具鲁棒性,但成本显著更高(GPT-4V 每百万输入 token 成本约 $10,而 GPT-4o 为 $5)。在内部测试中,AppAgent 在类似任务上实现了 68% 的成功率,略低于 Mobilerun 的 74%。

更多来自 GitHub

Zed编辑器:Rust语言与实时协作,能否撼动VS Code的霸主地位?Zed并非又一款代码编辑器,而是对开发环境本质的彻底重构。它出自GitHub的Atom编辑器与Tree-sitter解析框架的原班团队之手,完全采用Rust语言编写,将原始性能、低延迟和GPU加速渲染管线作为核心追求。其最大亮点是无缝的多人OpenClaw-Lark:字节跳动押注开源企业AI Agent,剑指Slack与Teams2025年4月30日,字节跳动企业协作平台Lark(国内称飞书)发布了开源插件OpenClaw-Lark,旨在作为通用通道,将机器人、AI Agent和自动化工作流无缝集成到Lark环境中。该项目托管于GitHub的larksuite组织下Freqtrade:重塑加密货币自动化的开源交易机器人Freqtrade已成为自动化加密货币交易领域的主导性开源框架,吸引了近50,000个GitHub星标以及一个由开发者和量化交易者组成的活跃社区。与那些将用户锁定在黑盒策略中的专有交易机器人不同,Freqtrade提供完全的透明度:每一行代查看来源专题页GitHub 已收录 1232 篇文章

时间归档

April 20262971 篇已发布文章

延伸阅读

Zed编辑器:Rust语言与实时协作,能否撼动VS Code的霸主地位?由Atom和Tree-sitter原班人马打造的Zed编辑器,以Rust语言为根基,承诺实现“思维速度般的编码体验”。本文深度剖析其技术架构、多人协作能力,并探讨它是否真能撼动VS Code等老牌竞争对手的统治地位。OpenClaw-Lark:字节跳动押注开源企业AI Agent,剑指Slack与Teams字节跳动旗下飞书(Lark)正式开源OpenClaw-Lark,一个让开发者能在飞书生态内构建AI机器人与自动化工作流的插件框架。上线首日即斩获2105个GitHub星标,这不仅是工具,更是一步挑战Slack和Teams的战略棋局。Freqtrade:重塑加密货币自动化的开源交易机器人Freqtrade,一款基于Python的免费开源加密货币交易机器人,已在GitHub上斩获超过49,000颗星。AINews深入解析这一可编程框架如何赋予个人交易者回测、实盘交易和完全控制权——同时揭示自动化加密策略背后的高风险。Bitterbot Desktop:本地优先的AI代理,拥有记忆、情感与点对点技能交易Bitterbot Desktop是一款本地优先的AI代理,融合了持久记忆、情感智能与点对点技能经济。这个开源项目挑战了依赖云端的AI范式,提供了一个保护隐私、具备情感感知能力的助手,能够学习、记忆,甚至与其他代理交易技能。

常见问题

GitHub 热点“Mobilerun: The LLM-Agnostic Agent That Automates Your Phone with Natural Language”主要讲了什么?

Mobilerun, an open-source project hosted on GitHub under the repository name 'droidrun/mobilerun', has rapidly amassed over 8,220 stars with a daily growth of approximately 50 star…

这个 GitHub 项目在“How to install Mobilerun on Android without root”上为什么会引发关注?

Mobilerun’s architecture is a textbook example of the 'agentic' paradigm applied to mobile environments. The system is composed of three layers: a perception layer, a reasoning layer, and an execution layer. Perception L…

从“Mobilerun vs AppAgent vs Mobile-Agent performance comparison”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 8220,近一日增长约为 50,这说明它在开源社区具有较强讨论度和扩散能力。