技术深度解析
智能体评估问题从根本上不同于评估单轮聊天机器人。一个智能体必须跨多个步骤进行规划、执行、观察和调整,且通常处于开放环境中。两种主流技术方法已经出现,各自带有深刻的权衡。
LLM-as-Judge(LLM裁判)
该方法使用独立的LLM(通常是GPT-4、Claude或经过微调的较小模型)对智能体的轨迹进行评分。裁判会收到任务描述、智能体的操作以及最终输出,并被要求评估正确性、效率或安全性。其吸引力在于速度和成本:评估一个复杂的智能体轨迹可能只需花费0.10–0.50美元的API调用费用,而人工评估则需要数小时。然而,多个实验室的研究已记录了系统性缺陷:
- 位置偏差:裁判倾向于偏好轨迹中较早出现的操作或输出。
- 自我增强偏差:与智能体同属一个家族的LLM裁判(例如,GPT-4评判基于GPT-4的智能体)比来自不同家族的裁判更为宽容。
- 长度偏差:更长、更冗长的轨迹通常获得更高评分,即使它们效率更低。
- 风格重于实质:格式良好但错误的答案可能得分高于正确但格式不佳的答案。
一项2024年基于AgentBench基准的研究发现,在复杂网页任务上,LLM裁判与人工评估者的一致性仅为68%,假阳性率高达12%(将失败的智能体评为成功)。
代理测试
代理测试涉及创建一个具有已知真实结果的模拟环境。例如,为了评估一个网页购物智能体,你需要构建一个包含固定库存、定价和结账逻辑的模拟电商网站。智能体的操作会与黄金标准解决方案进行比较。这种方法高度可靠——在精心设计的任务上准确率可超过95%——但成本惊人。为“预订包含中途停留的航班”这样的单一任务构建代理环境可能需要:
- 3–5个开发者日来设计模拟网站
- 50–200个覆盖边缘情况(取消、错误、超时)的测试用例
- 随着任务领域演变而持续维护
对于像WebArena这样的基准测试——涵盖6个领域的812个任务——总环境成本估计超过50万美元。将其扩展到数千个真实世界的企业智能体在经济上是不可行的。
混合方法
越来越多的团队正在采用分层混合方案:
1. 快速迭代:在开发过程中,使用LLM裁判(例如,经过微调的Llama 3 8B裁判)进行90%的评估。成本:每次评估约0.05美元。
2. 验证关卡:在关键检查点(例如,发布前),对精心挑选的100–200个任务子集运行代理测试。成本:每次运行约5,000美元。
3. 生产监控:使用轻量级LLM裁判进行实时监控,并辅以定期人工审计。
| 评估方法 | 每次评估成本 | 可靠性(与人工相比) | 延迟 | 可扩展性 |
|---|---|---|---|---|
| LLM-as-Judge (GPT-4) | $0.10–$0.50 | 68–75% | 2–5秒 | 非常高 |
| LLM-as-Judge (微调小模型) | $0.01–$0.05 | 70–80% | 0.5–2秒 | 非常高 |
| 代理测试(单任务) | $50–$500 | 90–98% | 10–60分钟 | 低 |
| 人工评估 | $10–$50 | 95–99% | 1–24小时 | 非常低 |
数据要点:成本与可靠性之间的权衡极为明显。LLM裁判比代理测试便宜100–10,000倍,但可靠性低15–25%。对于高风险领域(金融、医疗),代理测试仍然必不可少;对于低风险任务(内容生成、简单自动化),LLM裁判已足够。
关键参与者与案例研究
多家组织正处于这场评估之战的前沿,各自押注不同的战略方向。
OpenAI 已在其Code Interpreter和Operator智能体上大力投资代理测试。其内部评估套件(据称为“AgentEval”)结合了合成环境(例如,用于日历、电子邮件和文件系统的模拟API)和一个用于评分的微调GPT-4裁判。他们已在GitHub上的“evals”仓库中开源了部分评估任务,该仓库已获得超过15,000颗星。该仓库包含构建代理环境的模板,但完整套件仍为专有。
Anthropic 采取了不同的方法。他们的Claude智能体主要通过“宪法AI”原则进行评估,使用一个专门的“裁判模型”(Claude 3.5 Sonnet),该模型经过对抗性训练以检测有害或不正确的智能体行为。他们发表的研究表明,与原始GPT-4相比,其裁判模型将位置偏差降低了40%。Anthropic也对其“工具使用”能力使用代理测试,但仅限于一小部分关键任务(例如,代码执行、API调用)。
Google DeepMind 开发了“AgentBench”,这是最全面的代理测试套件之一,涵盖7个领域(网页、游戏、代码等),包含超过1,000个任务。然而,运行该套件的成本极高——每次完整评估估计需要数万美元的云计算资源。