技术深度解析
Tested基于多智能体评估架构运行。当开发者提交模型或工具进行评审时,平台会生成四个独立的评估智能体,每个由不同的前沿模型驱动:Claude 3.5 Sonnet、GPT-4o、Gemini 1.5 Pro和Grok-2。每个智能体接收一套标准化提示集,包含50个测试用例,涵盖多步推理、事实回忆、创意生成、指令遵循和安全性边界遵守等类别。智能体对每个类别输出0–100分的评分,并附上自由文本的评分理由。
聚合层使用加权中位数而非平均值,以减少异常分数的影响。如果任何模型的分数偏离中位数超过2个标准差,平台会将其标记为需要人工审核。整个流水线运行在无服务器后端上,目标延迟为每次提交不超过5分钟。
一个关键的工程挑战是提示污染:如果评估提示泄露到未来模型版本的训练数据中,整个基准测试将失效。Tested通过从加密签名的10,000个预生成测试用例池中轮换提示集来缓解这一问题,每周刷新一次。然而,这种方法无法完全阻止模型识别评估模式——这是LLM基准测试社区中已知的问题。
数据表:Tested评估架构 vs. 传统人工评估
| 特性 | Tested(AI陪审团) | 传统人工评估 |
|---|---|---|
| 每个工具评估时间 | 5分钟 | 2–4小时 |
| 每次评估成本 | ~0.50美元(API费用) | 200–500美元(专家劳动) |
| 评分维度数量 | 6(逻辑、创造力、安全性等) | 3–5(因评审组而异) |
| 评分者间一致性 | 0.82(Cohen's kappa) | 0.65–0.75(人类一致性) |
| 可扩展性 | 每月10,000+工具 | 每月50–100工具 |
| 偏见脆弱性 | 高(共享训练数据) | 中等(个体人类偏见) |
数据要点: Tested相比人工评估实现了40倍速度提升和400倍成本降低,评分者间一致性更高。但偏见脆弱性是一个关键权衡——平台用算法同质性取代了人类主观性。
关键参与者与案例研究
Tested由一群前Google DeepMind研究人员开发,他们选择保持匿名。该平台已评估超过200个AI工具,包括Meta的Llama 3.1 70B、Mistral的Mixtral 8x22B和阿里巴巴的Qwen2.5-72B等开源模型,以及Cohere、AI21 Labs和Reka的专有API。
一个值得注意的案例:当Tested评估一个为法律推理微调的Llama 3.1版本时,陪审团给出了78/100的综合评分。然而,Claude的智能体给出了92分,而Grok的智能体只给了58分——相差34分。平台的自动标记系统触发了人工审核,结果发现Grok的训练数据中法律案例法的代表性不足,导致它对领域特定术语进行了惩罚。这一事件既凸显了多模型评估的价值(捕捉盲点),也揭示了其风险(模型可能自信地犯错)。
数据表:Tested上模型特定评分差异(10个工具样本)
| 评估工具 | Claude评分 | GPT-4o评分 | Gemini评分 | Grok评分 | 综合评分 | 差异 |
|---|---|---|---|---|---|---|
| Llama 3.1 70B | 82 | 79 | 85 | 74 | 80 | 11 |
| Mistral Large 2 | 88 | 91 | 86 | 79 | 87 | 12 |
| Qwen2.5-72B | 76 | 80 | 73 | 68 | 75 | 12 |
| Cohere Command R+ | 70 | 73 | 75 | 65 | 71 | 10 |
| AI21 Jamba 1.5 | 84 | 82 | 80 | 77 | 81 | 7 |
| Reka Core | 79 | 76 | 81 | 72 | 78 | 9 |
| 定制法律LLM | 92 | 78 | 80 | 58 | 79 | 34 |
| 创意写作模型 | 85 | 90 | 82 | 88 | 86 | 8 |
| 安全调优模型 | 95 | 92 | 93 | 89 | 92 | 6 |
| 数学推理模型 | 77 | 85 | 79 | 81 | 80 | 8 |
数据要点: 模型间的平均差异为11.7分,但领域特定工具(如法律LLM)的差异可能超过30分。这表明在评估专业系统时,陪审团的共识是脆弱的,综合评分可能掩盖显著的分歧。
行业影响与市场动态
Tested的推出恰逢AI评估市场预计从2024年的12亿美元增长到2028年的48亿美元(复合年增长率32%)。主导玩家——HumanEval、MMLU和BIG-bench——是静态基准测试,饱受数据泄露和饱和问题困扰。Tested的动态多模型方法可能通过提供随着新模型出现而适应的持续评估服务来颠覆这一格局。
然而,该平台面临一个先有鸡还是先有蛋的问题:要获得可信度,它必须被那些其模型正在被评估的公司所使用。OpenAI、Anthropic、Google和xAI尚未正式认可Tested,并且存在不小的风险,即它们可能阻止API访问用于评估目的。Tested目前使用API密钥