AI Agent 正在摧毁传统测试：“对与错”的二元法则已然失效

AI Agent——由大语言模型和世界模型驱动的自主系统——的崛起，正在从根本上瓦解软件测试的既有范式。与面对相同输入总能产生相同输出的确定性程序不同，Agent 每次执行都会走出独一无二的路径，这源于随机采样、环境反馈以及内部推理动态。这种非确定性不是 Bug，而是创造力与适应性的特征，但它让单元测试、回归测试套件和 A/B 对比几乎形同虚设。AINews 观察到，行业应对策略碎片化：有的团队试图通过冻结随机种子和温度参数来强制复现，有的则诉诸大规模人工验证。两种方式都不可持续。更深层的挑战在于，我们正在从“对与错”的二元世界，迈入一个必须用概率和分布来定义可靠性的新时代。

技术深度解析

根本问题在于，AI Agent 运行在随机过程之上。与传统的函数 `f(x) = y` 不同，Agent 的输出是从一个关于可能动作的概率分布中采样得到的，该分布以整个交互历史为条件。这不是 Bug——这正是 Agent 能够泛化、适应并展现涌现行为的根源。然而，这也使得依赖确定性“预言机”的传统软件测试从根本上不再适用。

可复现性的幻象： 有些团队试图通过固定随机种子、将温度参数设为 0 并使用贪婪解码来强制确定性。这对简单的 LLM 调用有效，但对于与动态环境（例如网页浏览、代码执行、物理机器人）交互的 Agent 来说则行不通。一个微小的环境变化——页面加载时间稍有不同、API 响应略有差异——都可能级联成完全不同的 Agent 轨迹。开源仓库 `LangChain`（GitHub 星标已超 95,000）提供了明确拥抱非确定性的 Agent 框架，但其评估模块 `langchain.evaluation` 仍然依赖于与参考轨迹的成对比较，这种方式非常脆弱。

概率性评估框架： 正在形成的共识是，将 Agent 评估视为一个统计估计问题。不再问“Agent 做对了吗？”，而是问“Agent 的行为落在可接受能力范围内的概率是多少？”。这需要：
- 行为克隆基线： 训练一个简单的策略（例如，从人类演示中进行行为克隆），以建立预期性能的下限。
- 蒙特卡洛采样： 在同一任务上多次运行 Agent（例如 100-1000 个回合），以估计结果的分布。
- 对抗性场景生成： 使用另一个 LLM 或生成模型来系统地探测边缘情况。`AgentBench` 基准测试（GitHub，约 8,000 星标）使用了一套包含 8 个多样化环境的套件，并报告成功率，而非单次运行的正确性。

关键指标转变：

| 指标 | 传统软件 | AI Agent |
|---|---|---|
| 正确性 | 二元（通过/失败） | 成功概率（例如 0.85 ± 0.05） |
| 可靠性 | 确定性 | 行为方差（例如，不同种子下的成功率） |
| 测试 | 单元测试 | 场景覆盖率（例如，处理的对抗性案例百分比） |
| 回归 | 期望相同输出 | 分布偏移检测（例如，动作分布的 KL 散度） |

数据要点： 从二元指标到概率性指标的转变并非可选——而是数学上的必然。任何为 Agent 报告单一数字的评估都具有误导性；置信区间和方差估计是必不可少的。

世界模型的作用： 高级 Agent 使用学习到的世界模型在行动前模拟结果。评估这些世界模型引入了第二层非确定性。`DreamerV3` 仓库（GitHub，约 4,000 星标）展示了世界模型如何在预测准确性（例如，未来状态的均方误差）以及想象轨迹的质量上进行评估。这是一个活跃的研究领域：我们如何验证世界模型的“幻觉”是可控的？

关键参与者与案例研究

OpenAI： 该公司的 `Operator` Agent（2025 年初发布）采用了“先规划后执行”的架构。据内部消息，OpenAI 使用一种“行为一致性分数”，该分数衡量同一任务在 50 次运行中结果的方差。如果方差超过阈值，Agent 将被标记以进行重新训练。然而，这种方法计算密集，且无法扩展到开放式任务。

Anthropic： 他们的 `Claude 3.5` Agent 专注于“宪法式 AI”以约束行为。Anthropic 的评估方法强调“无害性分布”——他们衡量 Agent 行为违反预定义规则集的概率。这是一种概率性安全测试形式。他们的 `Constitutional AI` 论文（2023 年）为此奠定了基础，但将其操作化应用于 Agent 仍然充满挑战。

Google DeepMind： `SIMA` Agent（可扩展可指导多世界 Agent）在 10 多个游戏环境的 600 多项任务上评估其“通才能力”。DeepMind 使用“成功率”指标，但也追踪“技能获取曲线”——Agent 随着数据增加而改进的速度。他们的 `OpenSpiel` 框架（GitHub，约 4,500 星标）提供了博弈论评估工具，这些工具可以适配用于 Agent。

新兴初创公司：

| 公司 | 产品 | 评估方法 | 关键局限 |
|---|---|---|---|
| Cognition AI | Devin | SWE-bench 上的任务完成率 | 仅限于软件工程；忽略行为方差 |
| Adept | ACT-1 | 用户满意度调查（主观） | 无客观基准 |
| AutoGPT | AutoGPT 平台 | 社区投票的任务成功 | 噪声极大；缺乏统计严谨性 |

数据要点： 目前没有一家主要参与者拥有一个既全面又可扩展的评估解决方案。行业仍处于“狂野西部”阶段，每个团队都在摸索自己的概率性测试方法。

未来方向与编辑观点

短期（6-12 个月）： 我们预计会出现“评估即服务”平台，这些平台提供标准化的概率性测试套件。`LangSmith` 和 `Weights & Biases` 已经在朝这个方向努力，但它们的工具仍然过于关注单次 LLM 调用，而非完整的 Agent 轨迹。

中期（1-2 年）： 将出现“对抗性评估器”——一个 LLM 或 Agent 专门生成挑战性场景，另一个则进行评估。这创造了一个评估的“军备竞赛”，类似于生成对抗网络（GAN）的训练动态。

长期（3-5 年）： 我们可能看到“形式化验证”技术被改编用于 Agent。概率性程序验证——例如，使用马尔可夫决策过程（MDP）模型检查——可以为关键任务 Agent 提供数学保证。但考虑到当前 LLM 的规模，这计算上极其昂贵。

编辑观点： 行业需要接受一个令人不安的事实：AI Agent 从根本上来说是不可测试的，至少在传统意义上是如此。我们无法证明一个 Agent 在所有情况下都是“正确的”——我们只能估计它在特定分布下的可靠性。这要求心态发生转变：从追求完美到管理概率。那些率先建立稳健概率性评估框架的公司，将拥有定义下一代软件可靠性的权力。

时间归档

延伸阅读

常见问题

这次模型发布“AI Agents Break Testing: Why 'Right vs Wrong' No Longer Works”的核心内容是什么？

The rise of AI agents—autonomous systems powered by large language models and world models—is fundamentally breaking the software testing paradigm. Unlike deterministic programs th…

从“How to test AI agents without deterministic outputs”看，这个模型发布为什么重要？

The fundamental issue is that AI agents operate on stochastic processes. Unlike a traditional function f(x) = y, an agent's output is sampled from a probability distribution over possible actions, conditioned on the enti…

围绕“AI agent evaluation frameworks open source”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。