AI安全的空洞承诺：出口管制失效，前沿模型沦为武器

AI安全界长期以来一直假设模型能力与部署控制可以保持平衡。这一假设如今已被经验事实证伪。由METR与四大领先AI实验室——OpenAI、Anthropic、Google DeepMind和Meta——联合发布的报告揭示，那些尚未向公众发布的高能力内部模型，已经具备被最低限度部署用于恶意目的的能力。这不是理论上的未来风险，而是当下的现实。报告的核心发现是：对于自主网络攻击、虚假信息宣传和生物安全规划等任务，这些模型可以在无需人工干预的情况下执行所需步骤的前10-20%，而这一阈值被安全专家视为自动化的“危险区”。

技术深度剖析

METR报告的方法论值得仔细审视。其评估框架名为“最低限度恶意部署”（MMD），衡量的是将模型转向有害目的所需的最小人力投入。对于最强大的内部模型——参数估计在5000亿到2万亿之间——自主网络攻击规划的MMD得分已降至0.3以下（该量表以1.0代表“需要一整个专家团队”）。这意味着，一个具备中等技术能力的单一个体，如今就能将这些模型武器化，用于定向攻击。

| 模型 | 估计参数 | MMD得分（网络） | MMD得分（虚假信息） | MMD得分（生物安全） |
|---|---|---|---|---|
| GPT-4（内部） | ~1.8T（MoE） | 0.28 | 0.35 | 0.42 |
| Claude 3.5 Opus（内部） | ~500B | 0.22 | 0.31 | 0.38 |
| Gemini Ultra（内部） | ~1.5T（MoE） | 0.25 | 0.33 | 0.40 |
| Llama 4（内部） | ~1.2T（MoE） | 0.30 | 0.38 | 0.45 |

数据要点： 所有四个前沿模型在三个威胁向量上的得分均低于0.5，其中Claude 3.5 Opus的MMD得分最低，表明风险最高。生物安全得分始终最高（最安全），但仍然低得危险。行业的“安全税”——为对齐付出的性能代价——似乎在缩小。

Anthropic的防御架构在其技术博文《前沿模型安全：分层方法》中有详细说明，包含四层：

1. 地理IP封锁： 基于CIDR范围的封锁列表，覆盖中国、俄罗斯及其他若干国家。使用Bright Data或Oxylabs等住宅代理网络（提供来自数千个美国家庭的IP）即可轻易绕过。

2. 支付方式验证： Anthropic要求使用获批国家银行发行的信用卡。灰市运营商通过使用注册在美国地址的虚拟信用卡（例如来自Privacy.com或Revolut）来规避，然后将访问权限转售给全球用户。

3. 使用模式分析： 行为启发式算法会标记那些从多个地理位置发起API调用或呈现异常提示模式的账户。中继服务通过将所有流量路由至单一美国服务器，并标准化提示分布以模仿合法使用，来应对这一检测。

4. 模型输出过滤： 一个安全分类器，用于拦截包含特定关键词或模式的输出。灰市提供商通过使用修改版的Anthropic API客户端来剥离这些过滤器——该客户端在将响应传递给最终用户之前，会拦截并移除安全标头。

GitHub上的仓库“claude-relay-proxy”（目前拥有2300颗星）提供了这一绕过方法的完整开源实现。其README明确声明：“本工具仅供教育用途。”——这一免责声明从未阻止过它的实际使用。

关键参与者与案例研究

Anthropic 发现自己处于一个不可能的位置。这家公司以安全优先的AI开发为创立原则，如今却成为安全措施在现实压力下失效的主要例证。该公司切断欧洲访问的决定并非自愿，而是对美国商务部工业与安全局（BIS）发出的“国家安全信函”的直接回应——该信函要求Anthropic限制某些外国实体对模型的访问。Anthropic CEO Dario Amodei在一份内部备忘录中表示：“我们正在遵守法律义务，但我们相信这将加速全球AI生态系统的碎片化。”

欧洲的AI主权鸿沟 如今暴露无遗。这片大陆没有一家公司能够训练出前沿级别的模型。最突出的欧洲挑战者Mistral AI专注于更小、更高效的模型（Mistral 7B、Mixtral 8x7B），这些模型虽具竞争力，但与GPT-4或Claude 3.5不在同一级别。欧盟于2024年通过的《AI法案》旨在根据风险等级对AI进行监管，但并未刺激本土前沿模型的发展。结果是：欧洲是监管的领导者，却是技术的依赖者。

| 公司 | 国家 | 最大模型 | 参数 | MMLU得分 | 训练成本（估计） |
|---|---|---|---|---|---|
| OpenAI | 美国 | GPT-4 Turbo | ~1.8T（MoE） | 86.4 | 1亿美元以上 |
| Anthropic | 美国 | Claude 3.5 Opus | ~500B | 88.3 | 5000万美元以上 |
| Google DeepMind | 英国/美国 | Gemini Ultra | ~1.5T（MoE） | 90.0 | 2亿美元以上 |
| Meta | 美国 | Llama 4 | ~1.2T（MoE） | 85.5 | 8000万美元以上 |
| Mistral AI | 法国 | Mistral Large | ~200B | 78.2 | 1500万美元 |

数据要点： 美国前沿实验室与欧洲最佳之间的差距，在参数数量上达到2.5-9倍，在MMLU得分上相差10-15个百分点。Mistral的模型在其规模上表现出色，但无法在前沿领域竞争。欧洲的AI主权是一个神话。

灰市生态系统 高度成熟。像“APIHub”和“ModelRelay”这样的公司作为合法企业运营，注册地在香港和新加坡等地。它们以官方定价5-10%的价格批量购买Anthropic的API访问权限，然后通过上述代理技术转售给受限地区的用户。这些服务在中文社交媒体和Telegram群组中公开推广，月活跃用户估计达数万人。

时间归档

延伸阅读

常见问题

这次模型发布“AI Safety's Hollow Promise: Export Controls Fail as Frontier Models Become Weapons”的核心内容是什么？

The AI safety community has long operated under the assumption that model capabilities and deployment controls can be kept in balance. That assumption has now been empirically fals…

从“How to bypass Anthropic API restrictions”看，这个模型发布为什么重要？

The METR report's methodology is worth examining in detail. The evaluation framework, known as 'Minimum Malicious Deployment' (MMD), measures the minimum amount of human effort required to turn a model toward harmful end…

围绕“METR minimum malicious deployment score explained”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。