技术深度解析
诸如Finalrun这类工具背后的技术创新,在于将多个先进的AI子系统编排成一个连贯的、可执行操作的流水线。它超越了简单的屏幕理解,实现了在数字环境中的具身推理。
架构与流水线: 一个典型的用于测试的视觉语言智能体遵循多阶段流程:
1. 屏幕感知: 智能体捕获当前设备屏幕(通过Android的ADB、iOS的Xcode Instruments或模拟器)。这些原始像素数据被输入到一个视觉编码器(通常是Vision Transformer或基于CNN的模型,如CLIP的图像编码器),以创建密集的视觉表征。
2. 多模态理解: 该视觉表征与文本测试指令(例如,‘将商品加入购物车’)以及至关重要的先前操作和屏幕状态记忆相融合。这一过程在诸如GPT-4V、Claude 3 Opus或LLaVA-NeXT、Qwen-VL等开源模型的多模态大语言模型中完成。MLLM的任务是理解完整上下文:‘我看到了什么?’、‘要求我做什么?’以及‘我之前做过什么?’
3. 行动规划与落地: MLLM输出一个推理轨迹和一个高层行动计划。该计划必须被‘落地’为可执行的UI操作。这是关键一步。智能体必须识别出特定的UI元素目标。先进的系统不再输出选择器,而是生成空间或语义描述符。例如,它可能输出:`tap(text: '登录', bounding_box: [x1, y1, x2, y2])` 或 `tap(element_described_as: '右上角的圆形个人资料图标')`。边界框通常由模型通过专门的视觉落地模块预测得出。
4. 行动执行与观察: 翻译后的命令(例如,一个特定的ADB点击命令)在设备上执行。系统随后观察新的屏幕状态,更新其记忆,循环继续,直到任务完成或满足失败条件。
关键的GitHub仓库与模型:
* Finalrun: 提示中引用的项目代表了此架构的一个实际实现。它很可能封装了一个MLLM API(例如OpenAI的)和一个设备控制层,提供了一个简洁的、基于规格描述的接口。
* AppAgent (by mobilerai): 一个展示此范式的知名开源项目。它使用GPT-4V通过插件系统在智能手机上执行任务,能够从演示中学习并创建可复用的技能。其星标数的增长反映了社区对智能体化移动自动化的强烈兴趣。
* AIT (Apple Intelligence Testing - 内部/研究): 虽然并非开源,但研究论文和泄露信息表明苹果正在大力投资类似的基于视觉的iOS测试智能体,这验证了该技术的商业化方向。
* LLaVA-NeXT & Qwen-VL-Chat: 这些是最先进的开源MLLM,对于在专有API调用之外,使该技术变得可及且成本效益高至关重要。它们在视觉问答基准测试上的表现直接关系到测试智能体的可靠性。
性能与基准测试挑战: 量化这些智能体的性能是复杂的。传统的测试通过/失败率等指标已不充分。新的基准测试侧重于跨多样化应用的任务完成准确率,以及跨越UI变化的泛化能力。
| 测试方法 | 平均设置时间(单次测试) | 平均维护时间(每次UI变更) | 任务完成率(未见过的应用) | 执行速度(操作/分钟) |
|---|---|---|---|---|
| 传统(基于选择器) | 15-30 分钟 | 5-15 分钟 | 95%+ (在稳定UI上) | 60-120 |
| 视觉语言智能体(当前) | 2-5 分钟 | < 1 分钟 (更新描述) | 70-85% | 10-30 |
| 视觉语言智能体(预计18个月后) | < 1 分钟 | 接近零 | 90%+ | 40-60 |
数据启示: 数据揭示了核心的权衡:视觉智能体显著减少了设置时间,更重要的是,将维护开销降低了一个数量级,但目前在新界面的执行速度和绝对可靠性上做出了牺牲。预计的改进突显了这样一种信念:AI的准确性和速度提升将快于维护基于选择器脚本的复杂性增长。
主要参与者与案例研究
这场运动由雄心勃勃的初创公司、开源社区以及大型平台公司的内部计划共同推动。
初创公司与商业产品:
* Diffblue Cover: 虽然专注于Java的单元测试生成,但其在使用AI创建和维护测试方面的成功,证明了市场对AI增强型QA的渴望。其超过4000万美元的融资表明了投资者对该类别的信心。
* Functionize: 一个云测试平台,已越来越多地集成机器学习以实现自愈测试和自然语言处理,代表了向完整视觉智能体范式演进的步骤。
* 新兴专业公司: 多家