Anthropic开源Evals：定义AI安全测试标准的框架来了

2026年5月24日 08:34 AINews GitHub May 2026

⭐ 389

Anthropic正式开源Evals——一个用于系统性测试语言模型安全性、诚实度与有用性的综合框架。此举为红队测试、对齐研究与合规审计提供了标准化工具包，直接回应了业界对严格AI风险评估日益迫切的需求。

Anthropic的Evals框架是推动AI安全评估民主化的重要一步。该开源仓库提供了一套结构化的评估套件、自动化测试管道和标准化基准，旨在从多个维度探测模型：安全性（拒绝有害内容）、诚实度（事实准确性与幻觉率）以及有用性（任务完成准确率）。框架架构同时支持自动化测试与人在回路测试，使其适用于发布前的红队演练、持续对齐研究以及监管合规。尽管发布时GitHub星标仅389颗，尚处早期阶段，但其设计——利用精选数据集、对抗性提示和多轮交互测试——已具备成为行业标准的潜力。

技术深度解析

Anthropic的Evals框架采用模块化架构，将评估逻辑与待测模型分离。核心组件包括：

- 评估套件：按能力维度（如“无害性”、“诚实度”、“有用性”）组织的预构建测试用例集合。每个套件包含数百至数千条提示，涵盖对抗性示例、边缘案例和多轮对话。
- 评分引擎：可配置的系统，将模型输出与标准答案或评分规则进行比较。支持精确匹配、语义相似度（使用嵌入向量）以及LLM-as-judge评分。
- 自动化管道：基于Python的命令行工具和API，可编程运行评估、集成CI/CD系统并生成详细报告。
- 数据管理：所有测试数据以JSONL格式存储，便于版本控制和共享。框架包含用于策划新数据集和扩展现有数据集的工具。

评估流程遵循结构化工作流：1）通过API或本地推理加载模型，2）选择评估套件，3）使用可配置参数（温度、最大token数等）运行测试，4）聚合分数并生成按类别细分的报告。

一项关键技术创新是对抗性提示生成。框架包含一个模块，可自动生成已知有害提示的变体，以测试模型对越狱攻击的鲁棒性。这一点至关重要，因为静态基准会随着模型改进而迅速过时。

| 评估套件 | 提示数量 | 测试类别 | 平均运行时间（GPT-4） |
|---|---|---|---|
| 无害性 | 2,400 | 暴力、仇恨言论、自残、非法活动 | 45分钟 |
| 诚实度 | 1,800 | 事实准确性、幻觉检测、不确定性校准 | 30分钟 |
| 有用性 | 3,200 | 编程、数学、推理、创意写作 | 60分钟 |
| 对抗鲁棒性 | 1,200 | 越狱尝试、提示注入、角色扮演 | 35分钟 |

数据要点： 无害性套件规模最大，反映了Anthropic对安全性的优先考量。对抗鲁棒性套件虽小，但由于需要动态提示生成，计算强度较高。

框架的可扩展性是一大优势。开发者可通过简单的YAML配置文件创建自定义评估套件。例如，合规团队可以定义一个测试GDPR相关数据泄露或HIPAA合规性的套件。框架还支持人在回路评估，由标注员审查并评分模型输出，结果反馈至评分引擎。

一个值得关注的互补GitHub仓库是lm-evaluation-harness（由EleutherAI开发），它提供了更广泛的LLM评估基准。然而，Anthropic的Evals更专注于安全与对齐，而lm-evaluation-harness覆盖通用能力。两者并非互斥；事实上，结合使用可构建全面的评估管道。

关键玩家与案例研究

Anthropic是主要推动者，但框架的开源性质吸引了广泛生态系统的贡献。关键参与者包括：

- Anthropic：创建者，利用其在宪法AI和RLHF方面的专长。Evals框架直接源于其对Claude模型的内部安全测试。
- OpenAI：虽未直接参与，但OpenAI有自己的评估框架（例如Evals，现已弃用，转向内部工具）。Anthropic开源替代方案的存在，迫使OpenAI要么开源自己的框架，要么在标准制定中失去影响力。
- Google DeepMind：拥有自己的安全评估协议，但未开源。如果Anthropic的框架被更广泛的研究社区采用，可能成为事实上的标准。
- 监管机构：欧盟AI法案和美国AI行政令要求进行模型测试。Anthropic的Evals可用作合规工具，尤其若能获得标准组织的认证。

| 组织 | 评估框架 | 开源？ | 重点领域 | 关键差异化优势 |
|---|---|---|---|---|
| Anthropic | Evals | 是 | 安全、诚实度、有用性 | 模块化、对抗性提示生成 |
| OpenAI | 内部Evals（已弃用） | 否 | 通用能力 | 专有、与API集成 |
| EleutherAI | lm-evaluation-harness | 是 | 通用能力 | 最广泛的基准覆盖 |
| Google DeepMind | 内部 | 否 | 安全、对齐 | 与Gemini深度集成 |

数据要点： Anthropic的Evals是唯一既开源又专门聚焦安全与对齐的主流框架，这使其在市场中占据独特地位。

案例研究：一家开发客服聊天机器人的中型AI初创公司，在部署前使用Anthropic的Evals测试其模型。他们运行了无害性套件，并发现模型在处理涉及自残的敏感用户输入时，有12%的案例未能正确拒绝。通过迭代微调，他们将失败率降至2%以下，避免了潜在的声誉和法律风险。

常见问题

GitHub 热点“Anthropic's Evals: The Open-Source Framework That Could Define AI Safety Testing”主要讲了什么？

Anthropic's Evals framework is a significant step toward democratizing AI safety evaluation. The open-source repository provides a structured set of evaluation suites, automated te…

这个 GitHub 项目在“Anthropic evals vs lm-evaluation-harness comparison”上为什么会引发关注？

Anthropic's Evals framework is built around a modular architecture that separates evaluation logic from the model under test. The core components include: Evaluation Suites: Pre-built collections of test cases organized…

从“how to run Anthropic evals locally”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 389，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。

Anthropic开源Evals：定义AI安全测试标准的框架来了

技术深度解析

关键玩家与案例研究

更多来自 GitHub

时间归档

延伸阅读

常见问题