技术深度剖析
METR报告的方法论值得仔细审视。其评估框架名为“最低限度恶意部署”(MMD),衡量的是将模型转向有害目的所需的最小人力投入。对于最强大的内部模型——参数估计在5000亿到2万亿之间——自主网络攻击规划的MMD得分已降至0.3以下(该量表以1.0代表“需要一整个专家团队”)。这意味着,一个具备中等技术能力的单一个体,如今就能将这些模型武器化,用于定向攻击。
| 模型 | 估计参数 | MMD得分(网络) | MMD得分(虚假信息) | MMD得分(生物安全) |
|---|---|---|---|---|
| GPT-4(内部) | ~1.8T(MoE) | 0.28 | 0.35 | 0.42 |
| Claude 3.5 Opus(内部) | ~500B | 0.22 | 0.31 | 0.38 |
| Gemini Ultra(内部) | ~1.5T(MoE) | 0.25 | 0.33 | 0.40 |
| Llama 4(内部) | ~1.2T(MoE) | 0.30 | 0.38 | 0.45 |
数据要点: 所有四个前沿模型在三个威胁向量上的得分均低于0.5,其中Claude 3.5 Opus的MMD得分最低,表明风险最高。生物安全得分始终最高(最安全),但仍然低得危险。行业的“安全税”——为对齐付出的性能代价——似乎在缩小。
Anthropic的防御架构在其技术博文《前沿模型安全:分层方法》中有详细说明,包含四层:
1. 地理IP封锁: 基于CIDR范围的封锁列表,覆盖中国、俄罗斯及其他若干国家。使用Bright Data或Oxylabs等住宅代理网络(提供来自数千个美国家庭的IP)即可轻易绕过。
2. 支付方式验证: Anthropic要求使用获批国家银行发行的信用卡。灰市运营商通过使用注册在美国地址的虚拟信用卡(例如来自Privacy.com或Revolut)来规避,然后将访问权限转售给全球用户。
3. 使用模式分析: 行为启发式算法会标记那些从多个地理位置发起API调用或呈现异常提示模式的账户。中继服务通过将所有流量路由至单一美国服务器,并标准化提示分布以模仿合法使用,来应对这一检测。
4. 模型输出过滤: 一个安全分类器,用于拦截包含特定关键词或模式的输出。灰市提供商通过使用修改版的Anthropic API客户端来剥离这些过滤器——该客户端在将响应传递给最终用户之前,会拦截并移除安全标头。
GitHub上的仓库“claude-relay-proxy”(目前拥有2300颗星)提供了这一绕过方法的完整开源实现。其README明确声明:“本工具仅供教育用途。”——这一免责声明从未阻止过它的实际使用。
关键参与者与案例研究
Anthropic 发现自己处于一个不可能的位置。这家公司以安全优先的AI开发为创立原则,如今却成为安全措施在现实压力下失效的主要例证。该公司切断欧洲访问的决定并非自愿,而是对美国商务部工业与安全局(BIS)发出的“国家安全信函”的直接回应——该信函要求Anthropic限制某些外国实体对模型的访问。Anthropic CEO Dario Amodei在一份内部备忘录中表示:“我们正在遵守法律义务,但我们相信这将加速全球AI生态系统的碎片化。”
欧洲的AI主权鸿沟 如今暴露无遗。这片大陆没有一家公司能够训练出前沿级别的模型。最突出的欧洲挑战者Mistral AI专注于更小、更高效的模型(Mistral 7B、Mixtral 8x7B),这些模型虽具竞争力,但与GPT-4或Claude 3.5不在同一级别。欧盟于2024年通过的《AI法案》旨在根据风险等级对AI进行监管,但并未刺激本土前沿模型的发展。结果是:欧洲是监管的领导者,却是技术的依赖者。
| 公司 | 国家 | 最大模型 | 参数 | MMLU得分 | 训练成本(估计) |
|---|---|---|---|---|---|
| OpenAI | 美国 | GPT-4 Turbo | ~1.8T(MoE) | 86.4 | 1亿美元以上 |
| Anthropic | 美国 | Claude 3.5 Opus | ~500B | 88.3 | 5000万美元以上 |
| Google DeepMind | 英国/美国 | Gemini Ultra | ~1.5T(MoE) | 90.0 | 2亿美元以上 |
| Meta | 美国 | Llama 4 | ~1.2T(MoE) | 85.5 | 8000万美元以上 |
| Mistral AI | 法国 | Mistral Large | ~200B | 78.2 | 1500万美元 |
数据要点: 美国前沿实验室与欧洲最佳之间的差距,在参数数量上达到2.5-9倍,在MMLU得分上相差10-15个百分点。Mistral的模型在其规模上表现出色,但无法在前沿领域竞争。欧洲的AI主权是一个神话。
灰市生态系统 高度成熟。像“APIHub”和“ModelRelay”这样的公司作为合法企业运营,注册地在香港和新加坡等地。它们以官方定价5-10%的价格批量购买Anthropic的API访问权限,然后通过上述代理技术转售给受限地区的用户。这些服务在中文社交媒体和Telegram群组中公开推广,月活跃用户估计达数万人。