AI审判AI:Tested平台组建四模型陪审团自我评分

Hacker News June 2026
来源:Hacker News归档:June 2026
新平台Tested组建了一支由Claude、GPT、Gemini和Grok四大前沿AI模型组成的陪审团,用于交叉评估AI工具。这种自我指涉的评估系统可大幅削减人力成本并加速基准测试,但专家警告称,它可能放大集体偏见,形成扼杀真正创新的闭环。

近期上线的Tested平台正在颠覆传统AI评估模式,用四个前沿模型组成的评审团取代人类评委:Anthropic的Claude、OpenAI的GPT、Google的Gemini和xAI的Grok。每个模型独立对提交的AI工具进行评分,涵盖逻辑严谨性、创造力、指令遵循度和安全性等维度,随后平台汇总分数生成综合评级。该系统可在数小时内评估数百个工具,而人类专家完成同样任务需要数周。支持者认为,这大幅降低了质量保障成本,并实现了持续的实时基准测试。然而,批评者指出一个根本缺陷:如果四个模型共享相似的训练数据、强化学习偏见或盲点,它们的共识可能代表一种集体偏差,而非真正的客观标准。

技术深度解析

Tested基于多智能体评估架构运行。当开发者提交模型或工具进行评审时,平台会生成四个独立的评估智能体,每个由不同的前沿模型驱动:Claude 3.5 Sonnet、GPT-4o、Gemini 1.5 Pro和Grok-2。每个智能体接收一套标准化提示集,包含50个测试用例,涵盖多步推理、事实回忆、创意生成、指令遵循和安全性边界遵守等类别。智能体对每个类别输出0–100分的评分,并附上自由文本的评分理由。

聚合层使用加权中位数而非平均值,以减少异常分数的影响。如果任何模型的分数偏离中位数超过2个标准差,平台会将其标记为需要人工审核。整个流水线运行在无服务器后端上,目标延迟为每次提交不超过5分钟。

一个关键的工程挑战是提示污染:如果评估提示泄露到未来模型版本的训练数据中,整个基准测试将失效。Tested通过从加密签名的10,000个预生成测试用例池中轮换提示集来缓解这一问题,每周刷新一次。然而,这种方法无法完全阻止模型识别评估模式——这是LLM基准测试社区中已知的问题。

数据表:Tested评估架构 vs. 传统人工评估

| 特性 | Tested(AI陪审团) | 传统人工评估 |
|---|---|---|
| 每个工具评估时间 | 5分钟 | 2–4小时 |
| 每次评估成本 | ~0.50美元(API费用) | 200–500美元(专家劳动) |
| 评分维度数量 | 6(逻辑、创造力、安全性等) | 3–5(因评审组而异) |
| 评分者间一致性 | 0.82(Cohen's kappa) | 0.65–0.75(人类一致性) |
| 可扩展性 | 每月10,000+工具 | 每月50–100工具 |
| 偏见脆弱性 | 高(共享训练数据) | 中等(个体人类偏见) |

数据要点: Tested相比人工评估实现了40倍速度提升和400倍成本降低,评分者间一致性更高。但偏见脆弱性是一个关键权衡——平台用算法同质性取代了人类主观性。

关键参与者与案例研究

Tested由一群前Google DeepMind研究人员开发,他们选择保持匿名。该平台已评估超过200个AI工具,包括Meta的Llama 3.1 70B、Mistral的Mixtral 8x22B和阿里巴巴的Qwen2.5-72B等开源模型,以及Cohere、AI21 Labs和Reka的专有API。

一个值得注意的案例:当Tested评估一个为法律推理微调的Llama 3.1版本时,陪审团给出了78/100的综合评分。然而,Claude的智能体给出了92分,而Grok的智能体只给了58分——相差34分。平台的自动标记系统触发了人工审核,结果发现Grok的训练数据中法律案例法的代表性不足,导致它对领域特定术语进行了惩罚。这一事件既凸显了多模型评估的价值(捕捉盲点),也揭示了其风险(模型可能自信地犯错)。

数据表:Tested上模型特定评分差异(10个工具样本)

| 评估工具 | Claude评分 | GPT-4o评分 | Gemini评分 | Grok评分 | 综合评分 | 差异 |
|---|---|---|---|---|---|---|
| Llama 3.1 70B | 82 | 79 | 85 | 74 | 80 | 11 |
| Mistral Large 2 | 88 | 91 | 86 | 79 | 87 | 12 |
| Qwen2.5-72B | 76 | 80 | 73 | 68 | 75 | 12 |
| Cohere Command R+ | 70 | 73 | 75 | 65 | 71 | 10 |
| AI21 Jamba 1.5 | 84 | 82 | 80 | 77 | 81 | 7 |
| Reka Core | 79 | 76 | 81 | 72 | 78 | 9 |
| 定制法律LLM | 92 | 78 | 80 | 58 | 79 | 34 |
| 创意写作模型 | 85 | 90 | 82 | 88 | 86 | 8 |
| 安全调优模型 | 95 | 92 | 93 | 89 | 92 | 6 |
| 数学推理模型 | 77 | 85 | 79 | 81 | 80 | 8 |

数据要点: 模型间的平均差异为11.7分,但领域特定工具(如法律LLM)的差异可能超过30分。这表明在评估专业系统时,陪审团的共识是脆弱的,综合评分可能掩盖显著的分歧。

行业影响与市场动态

Tested的推出恰逢AI评估市场预计从2024年的12亿美元增长到2028年的48亿美元(复合年增长率32%)。主导玩家——HumanEval、MMLU和BIG-bench——是静态基准测试,饱受数据泄露和饱和问题困扰。Tested的动态多模型方法可能通过提供随着新模型出现而适应的持续评估服务来颠覆这一格局。

然而,该平台面临一个先有鸡还是先有蛋的问题:要获得可信度,它必须被那些其模型正在被评估的公司所使用。OpenAI、Anthropic、Google和xAI尚未正式认可Tested,并且存在不小的风险,即它们可能阻止API访问用于评估目的。Tested目前使用API密钥

更多来自 Hacker News

谷歌限制Meta调用Gemini:AI基础设施战争正式打响在一项史无前例的行动中,谷歌限制了Meta调用其Gemini AI模型的能力,强制执行硬性用量上限,这已打乱了Meta的产品开发时间线。据两家公司内部多位消息人士证实,这一决定源于谷歌无法调配足够的NVIDIA H100和B200 GPU集Cerberus:开源防火墙,驯服失控AI代理的运行时守护者Cerberus在AI代理发展的关键转折点问世。当自主代理从实验性聊天机器人进化为发送邮件、修改数据库、执行Shell命令的生产系统时,每一次工具调用都可能成为攻击面或操作失误。Cerberus并不试图让代理更聪明或更道德,而是承认其固有不深度学习复活Foveon:Mac应用通过RAW转换模拟适马传奇传感器多年来,适马的Foveon X3传感器一直是摄影师中的小众宠儿,他们珍视其独特的色彩再现——一种绘画般的、近乎油画的质感,拥有平滑的过渡和非凡的空间深度。与使用色彩滤镜阵列来猜测每个像素三分之二色彩信息的传统拜耳传感器不同,Foveon垂直查看来源专题页Hacker News 已收录 5338 篇文章

时间归档

June 20262842 篇已发布文章

延伸阅读

AI审判AI:多模态大模型如何重塑质量控制新秩序当AI开始批量生成图像、视频与音频,传统评估指标彻底失灵。行业给出的答案竟是——让AI来审判AI。本文深入剖析多模态大语言模型如何成为质量仲裁者,揭示这一自我指涉的循环虽承诺高效,却可能埋下偏见固化的隐患。尾巴恐慌:多智能体对战如何重新定义AI基准测试Tail Panic是一个专为AI智能体打造的多人竞技场,在这里,它们实时竞争、闪避、智取对手。这标志着从静态知识测试向动态对抗验证的转变,为推理能力、适应性和涌现行为提供了全新的基准。LLM基准测试的下一个前沿:为什么“有效吞吐”比原始吞吐量更重要AI行业痴迷于token吞吐量,但一场无声的危机正在逼近:以闪电速度生成文本的模型,往往充斥着幻觉和无关内容。AINews深入探讨向“有效吞吐”的范式转变——衡量真正有效的工作成果。聪明的幻觉:为何大语言模型口若悬河,却算不清小学数学大语言模型能辩论哲学、写诗、模仿人类共情,精准得令人咋舌。然而,当被要求解一道简单算术题或进行多步逻辑推理时,它们却常常一败涂地。这种“聪明的幻觉”并非漏洞,而是我们训练与奖励机制的设计特征。

常见问题

这次模型发布“AI Judges AI: Tested Platform Deploys Four Model Jury to Rate Itself”的核心内容是什么?

Tested, a recently launched platform, is upending traditional AI evaluation by replacing human judges with a panel of four frontier models: Anthropic's Claude, OpenAI's GPT, Google…

从“how does Tested platform prevent model collusion”看,这个模型发布为什么重要?

Tested operates on a multi-agent evaluation architecture. When a developer submits a model or tool for review, the platform spawns four independent evaluation agents, each powered by a different frontier model: Claude 3.…

围绕“Tested AI jury bias case study legal LLM”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。