技术深度解析
AppFunctions本质上是一个实现了发现与执行协议的Android框架扩展。其架构很可能包含三个核心组件:一个托管在Android系统内的功能注册表、一套面向开发者的模式定义语言,以及一个具备安全执行沙箱的智能体运行时。
开发者使用一种模式(可能通过扩展AndroidManifest.xml或使用新的资源类型)来注解其应用的功能。该模式描述函数(例如 `com.example.app/orderCoffee`)、所需参数(尺寸、类型、位置)以及预期的响应格式。系统注册表会聚合所有已安装应用的这些声明。当AI智能体需要执行任务时,它通过系统API查询此注册表。智能体——可以是设备端模型如Gemini Nano,也可以是云端辅助模型——将收到一份结构化的可用操作列表。随后,它规划操作序列,通过对话或上下文填充参数,并发出执行命令。
关键的工程挑战在于管理应用状态。与简单的API调用不同,移动应用拥有复杂的UI状态。AppFunctions必须确保目标应用处于接收函数调用的正确状态,这可能涉及启动应用或导航到特定界面。谷歌的解决方案很可能深度集成了Android的ActivityManager和WindowManager,利用特权系统API来可靠地编排这种状态管理。
这种方法优于以往的UI自动化或基于计算机视觉的抓取方案。那些方法对UI变化极其脆弱,且缺乏对功能的语义理解。AppFunctions则提供了一个稳定、语义化的接口。
一个相关的开源对比项目是GitHub上的AndroidRPA仓库,这是一个试图通过视觉-语言模型实现类似智能体控制的研究项目。它获得了约1.2k星标,但仍停留在概念验证阶段,凸显了在没有操作系统层面支持的情况下解决此问题的难度。
| 控制方法 | 可靠性 | 速度 | 语义理解 | 所需系统权限 |
|---|---|---|---|---|
| AppFunctions | 高(稳定API) | 快(直接调用) | 高(结构化模式) | 系统级(谷歌管理) |
| UI自动化(无障碍功能) | 低(对UI变化脆弱) | 慢(模拟点击) | 低(基于启发式) | 用户授予(高) |
| 计算机视觉(如AndroidRPA) | 中等 | 慢(截图处理) | 中等(VLM推理) | 用户授予(屏幕捕获) |
数据启示: 上表揭示了AppFunctions的根本优势:它以需要高系统权限(由谷歌控制)为代价,换取了可靠性、速度和语义保真度的大幅提升,首次使得持久、复杂的智能体工作流在技术上成为可能。
关键参与者与案例分析
谷歌并非在真空中运作。为AI赋予“双手”的竞赛正在整个行业升温。
谷歌的垂直整合栈: 该公司凭借对智能体模型(Gemini系列)、移动操作系统(Android)和应用生态(Play商店)的垂直控制,处于独特地位。AppFunctions是粘合剂。桑达尔·皮查伊多次强调“AI优先”的未来,而像Barret Zoph和Quoc V. Le(神经架构搜索和大语言模型的先驱)这样的研究人员已经为驱动这一切的智能体模型奠定了基础。最直接的案例研究就是将AppFunctions与融合了Bard的Google Assistant集成,将其从问答工具转变为真正的任务执行者。
苹果的困境: 拥有严格控制的iOS生态系统的苹果,面临着一个战略选择。它可以开发一个类似的、可能更以隐私为中心的框架(利用其Apple Silicon神经引擎进行设备端处理),或者选择抵制,优先考虑应用开发者的自主权和当前的UI范式。苹果在基础模型及其Ferret多模态模型上的研究显示了其能力,但其产品哲学可能会减缓采用速度。iOS上缺乏可比框架,将在AI能力上造成显著的平台差异。
微软的跨平台策略: 缺乏移动操作系统的微软,正通过Copilot及其Windows Copilot Runtime从云端和PC端发起进攻。其策略涉及与开发者深度合作,创建Copilot+ PC和插件。虽然在Windows上很强大,但要控制移动端则需要与OEM厂商合作或依赖效率较低的方法。萨提亚·纳德拉的重点是让Copilot成为通用智能体,但没有操作系统,移动端仍然是一个挑战。
初创公司与开源: 像Adept AI和MultiOn这样的初创公司一直在构建控制网络和桌面应用的智能体系统,主要依靠计算机视觉。Adept的Fuyu架构就是为屏幕理解而设计的。