Anthropic vs 阿里巴巴：模型窃取危机，AI安全格局就此改写

领先的 AI 安全公司 Anthropic（Claude 模型系列的缔造者）公开指控阿里巴巴对其 Claude 模型的核心能力进行了系统性、非法的提取。这一指控通过正式法律渠道和公开声明发布，称阿里巴巴的 AI 研究团队部署了精密的探测技术，针对 Anthropic 的 API 端点进行逆向工程，以还原 Claude 的内部推理机制、知识表征和架构细节。这绝非简单的数据抓取——而是一次涉嫌窃取定义前沿 AI 模型的知识产权的企图。

该技术方法被称为模型提取或模型窃取，涉及向 API 发送数千个精心构造的查询，分析输出结果，并利用这些数据训练一个替代模型。Anthropic 声称阿里巴巴的行为并非偶发事件，而是有组织的、持续的攻击，可能涉及分布式机器人网络和高级统计技术。如果得到证实，这将是首次公开记录在案的、针对前沿 AI 模型的大规模跨司法管辖区窃取事件。

此案的影响远超两家公司之争。它揭示了 AI 行业的一个根本性安全漏洞：通过 API 交付的智能本质上是可以被复制的。与编译后的软件不同，AI 模型的行为完全暴露在其 API 响应中，使得模型提取成为可能。这迫使整个行业重新思考如何保护其最宝贵的资产——训练好的模型权重和架构知识。

技术深度解析

模型提取，或称模型窃取，是一类攻击手段，旨在通过查询目标模型并利用其响应来训练替代模型，从而复制目标模型的功能。Anthropic 指控阿里巴巴采用的方法，很可能遵循了 2016 年由 Google 和 Cornell 的研究人员首次系统化、后经针对大型语言模型（LLM）大幅改进的成熟方法论。

攻击向量：API 探测与替代模型训练

核心技术包含三个阶段：
1. 查询构造：攻击者向受害者模型的 API 发送海量精心设计的提示。这些提示并非随机生成；它们被精心构造以引出多样化的输出，从而揭示模型的决策边界。对于 LLM，这包括测试事实知识、推理链、编码能力，甚至旨在暴露内部表征的对抗性输入。
2. 输出收集：攻击者收集模型的响应，包括对数概率、token 级别的置信度分数，有时如果 API 暴露了隐藏状态，还会收集这些状态。Anthropic 的 API 与大多数 API 一样，会返回 token 概率，这对于提取来说是金矿，因为它们揭示了模型内部的不确定性和对备选方案的排序。
3. 替代模型训练：收集到的查询-响应对被用来微调一个较小的开源模型（例如 LLaMA、Mistral 或 Qwen），使其模仿目标模型。知识蒸馏和行为克隆等技术被用来使替代模型的输出与原始模型对齐。替代模型无需与目标模型一样大——它只需要在特定的任务分布上复制目标模型的行为。

为何这对 LLM 有效

LLM 特别容易受到提取攻击，因为它们被设计成高度通用且响应灵敏。与逻辑隐藏在编译代码中的传统软件不同，LLM 的行为完全通过其 API 暴露出来。每一次查询都揭示了模型从输入到输出的内部映射的一部分。只要有足够多的查询——通常是数百万次——攻击者就能重建一个高保真度的副本。Carlini 等人在 2023 年的研究表明，即使只有 10 万次查询，攻击者也能提取出一个在原始模型基准测试任务上达到 80% 准确率的模型。

防御性对策

Anthropic 和其他领先实验室正在加速部署多种防御措施：

| 防御技术 | 工作原理 | 有效性 | 权衡取舍 |
|---|---|---|---|
| 差分隐私（DP） | 向 API 输出（例如 token 概率）添加校准噪声，以防止精确重建 | 对精确提取效果高；使替代模型保真度降低约 15-25% | 降低输出质量；增加延迟 |
| 模型水印 | 在输出中嵌入难以察觉的统计模式，可在可疑模型中检测到 | 效果中等；水印可通过微调移除 | 需要集中式检测系统；可能被逆向工程 |
| 对抗性扰动 | 略微改变输出以误导替代模型训练，而不影响普通用户 | 效果中等；可通过自适应攻击绕过 | 增加计算开销 |
| 查询速率限制与异常检测 | 限制每个 IP/用户的查询次数，并标记可疑模式（例如高熵查询） | 效果低；老练的攻击者会使用分布式僵尸网络 | 可能阻碍合法的研究用途 |

数据要点：没有一种防御措施是万无一失的。最稳健的方法结合了多层防御——差分隐私用于统计保护，水印用于取证追踪，速率限制用于基本威慑。然而，所有防御措施都有代价：降低输出质量或增加延迟。该行业仍处于开发实用、可扩展防御措施的早期阶段。

关键参与者与案例研究

Anthropic：指控方

Anthropic 成立于 2021 年，由前 OpenAI 研究人员 Dario Amodei 和 Daniela Amodei 等人创立，将自己定位为安全至上的 AI 公司。其 Claude 模型——Claude 3.5 Sonnet、Claude 3 Opus 以及最近发布的 Claude 4——以其强大的推理能力、安全对齐和拒绝生成有害内容而闻名。Anthropic 的商业模式几乎完全依赖 API 访问，企业客户按 token 付费。

时间归档

延伸阅读

常见问题

这次模型发布“Anthropic vs Alibaba: The Model Extraction Crisis That Changes AI Security Forever”的核心内容是什么？

Anthropic, the leading AI safety company behind the Claude model family, has publicly accused Alibaba of engaging in systematic, illegal extraction of Claude's core capabilities. T…

从“How does model extraction work technically?”看，这个模型发布为什么重要？

Model extraction, or model stealing, is a class of attacks that aim to replicate a target model's functionality by querying it and using the responses to train a substitute model. The attack Anthropic alleges Alibaba emp…

围绕“What are the best defenses against model stealing?”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。