AI审判AI：Tested平台组建四模型陪审团自我评分

2026年6月27日 11:06 AINews Hacker News June 2026

来源：Hacker News 归档：June 2026

新平台Tested组建了一支由Claude、GPT、Gemini和Grok四大前沿AI模型组成的陪审团，用于交叉评估AI工具。这种自我指涉的评估系统可大幅削减人力成本并加速基准测试，但专家警告称，它可能放大集体偏见，形成扼杀真正创新的闭环。

近期上线的Tested平台正在颠覆传统AI评估模式，用四个前沿模型组成的评审团取代人类评委：Anthropic的Claude、OpenAI的GPT、Google的Gemini和xAI的Grok。每个模型独立对提交的AI工具进行评分，涵盖逻辑严谨性、创造力、指令遵循度和安全性等维度，随后平台汇总分数生成综合评级。该系统可在数小时内评估数百个工具，而人类专家完成同样任务需要数周。支持者认为，这大幅降低了质量保障成本，并实现了持续的实时基准测试。然而，批评者指出一个根本缺陷：如果四个模型共享相似的训练数据、强化学习偏见或盲点，它们的共识可能代表一种集体偏差，而非真正的客观标准。

技术深度解析

Tested基于多智能体评估架构运行。当开发者提交模型或工具进行评审时，平台会生成四个独立的评估智能体，每个由不同的前沿模型驱动：Claude 3.5 Sonnet、GPT-4o、Gemini 1.5 Pro和Grok-2。每个智能体接收一套标准化提示集，包含50个测试用例，涵盖多步推理、事实回忆、创意生成、指令遵循和安全性边界遵守等类别。智能体对每个类别输出0–100分的评分，并附上自由文本的评分理由。

聚合层使用加权中位数而非平均值，以减少异常分数的影响。如果任何模型的分数偏离中位数超过2个标准差，平台会将其标记为需要人工审核。整个流水线运行在无服务器后端上，目标延迟为每次提交不超过5分钟。

一个关键的工程挑战是提示污染：如果评估提示泄露到未来模型版本的训练数据中，整个基准测试将失效。Tested通过从加密签名的10,000个预生成测试用例池中轮换提示集来缓解这一问题，每周刷新一次。然而，这种方法无法完全阻止模型识别评估模式——这是LLM基准测试社区中已知的问题。

数据表：Tested评估架构 vs. 传统人工评估

| 特性 | Tested（AI陪审团） | 传统人工评估 |
|---|---|---|
| 每个工具评估时间 | 5分钟 | 2–4小时 |
| 每次评估成本 | ~0.50美元（API费用） | 200–500美元（专家劳动） |
| 评分维度数量 | 6（逻辑、创造力、安全性等） | 3–5（因评审组而异） |
| 评分者间一致性 | 0.82（Cohen's kappa） | 0.65–0.75（人类一致性） |
| 可扩展性 | 每月10,000+工具 | 每月50–100工具 |
| 偏见脆弱性 | 高（共享训练数据） | 中等（个体人类偏见） |

数据要点： Tested相比人工评估实现了40倍速度提升和400倍成本降低，评分者间一致性更高。但偏见脆弱性是一个关键权衡——平台用算法同质性取代了人类主观性。

关键参与者与案例研究

Tested由一群前Google DeepMind研究人员开发，他们选择保持匿名。该平台已评估超过200个AI工具，包括Meta的Llama 3.1 70B、Mistral的Mixtral 8x22B和阿里巴巴的Qwen2.5-72B等开源模型，以及Cohere、AI21 Labs和Reka的专有API。

一个值得注意的案例：当Tested评估一个为法律推理微调的Llama 3.1版本时，陪审团给出了78/100的综合评分。然而，Claude的智能体给出了92分，而Grok的智能体只给了58分——相差34分。平台的自动标记系统触发了人工审核，结果发现Grok的训练数据中法律案例法的代表性不足，导致它对领域特定术语进行了惩罚。这一事件既凸显了多模型评估的价值（捕捉盲点），也揭示了其风险（模型可能自信地犯错）。

数据表：Tested上模型特定评分差异（10个工具样本）

| 评估工具 | Claude评分 | GPT-4o评分 | Gemini评分 | Grok评分 | 综合评分 | 差异 |
|---|---|---|---|---|---|---|
| Llama 3.1 70B | 82 | 79 | 85 | 74 | 80 | 11 |
| Mistral Large 2 | 88 | 91 | 86 | 79 | 87 | 12 |
| Qwen2.5-72B | 76 | 80 | 73 | 68 | 75 | 12 |
| Cohere Command R+ | 70 | 73 | 75 | 65 | 71 | 10 |
| AI21 Jamba 1.5 | 84 | 82 | 80 | 77 | 81 | 7 |
| Reka Core | 79 | 76 | 81 | 72 | 78 | 9 |
| 定制法律LLM | 92 | 78 | 80 | 58 | 79 | 34 |
| 创意写作模型 | 85 | 90 | 82 | 88 | 86 | 8 |
| 安全调优模型 | 95 | 92 | 93 | 89 | 92 | 6 |
| 数学推理模型 | 77 | 85 | 79 | 81 | 80 | 8 |

数据要点： 模型间的平均差异为11.7分，但领域特定工具（如法律LLM）的差异可能超过30分。这表明在评估专业系统时，陪审团的共识是脆弱的，综合评分可能掩盖显著的分歧。

行业影响与市场动态

Tested的推出恰逢AI评估市场预计从2024年的12亿美元增长到2028年的48亿美元（复合年增长率32%）。主导玩家——HumanEval、MMLU和BIG-bench——是静态基准测试，饱受数据泄露和饱和问题困扰。Tested的动态多模型方法可能通过提供随着新模型出现而适应的持续评估服务来颠覆这一格局。

然而，该平台面临一个先有鸡还是先有蛋的问题：要获得可信度，它必须被那些其模型正在被评估的公司所使用。OpenAI、Anthropic、Google和xAI尚未正式认可Tested，并且存在不小的风险，即它们可能阻止API访问用于评估目的。Tested目前使用API密钥

时间归档

常见问题

这次模型发布“AI Judges AI: Tested Platform Deploys Four Model Jury to Rate Itself”的核心内容是什么？

Tested, a recently launched platform, is upending traditional AI evaluation by replacing human judges with a panel of four frontier models: Anthropic's Claude, OpenAI's GPT, Google…

从“how does Tested platform prevent model collusion”看，这个模型发布为什么重要？

Tested operates on a multi-agent evaluation architecture. When a developer submits a model or tool for review, the platform spawns four independent evaluation agents, each powered by a different frontier model: Claude 3.…

围绕“Tested AI jury bias case study legal LLM”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。