技术深度解析
模型提取,或称模型窃取,是一类攻击手段,旨在通过查询目标模型并利用其响应来训练替代模型,从而复制目标模型的功能。Anthropic 指控阿里巴巴采用的方法,很可能遵循了 2016 年由 Google 和 Cornell 的研究人员首次系统化、后经针对大型语言模型(LLM)大幅改进的成熟方法论。
攻击向量:API 探测与替代模型训练
核心技术包含三个阶段:
1. 查询构造:攻击者向受害者模型的 API 发送海量精心设计的提示。这些提示并非随机生成;它们被精心构造以引出多样化的输出,从而揭示模型的决策边界。对于 LLM,这包括测试事实知识、推理链、编码能力,甚至旨在暴露内部表征的对抗性输入。
2. 输出收集:攻击者收集模型的响应,包括对数概率、token 级别的置信度分数,有时如果 API 暴露了隐藏状态,还会收集这些状态。Anthropic 的 API 与大多数 API 一样,会返回 token 概率,这对于提取来说是金矿,因为它们揭示了模型内部的不确定性和对备选方案的排序。
3. 替代模型训练:收集到的查询-响应对被用来微调一个较小的开源模型(例如 LLaMA、Mistral 或 Qwen),使其模仿目标模型。知识蒸馏和行为克隆等技术被用来使替代模型的输出与原始模型对齐。替代模型无需与目标模型一样大——它只需要在特定的任务分布上复制目标模型的行为。
为何这对 LLM 有效
LLM 特别容易受到提取攻击,因为它们被设计成高度通用且响应灵敏。与逻辑隐藏在编译代码中的传统软件不同,LLM 的行为完全通过其 API 暴露出来。每一次查询都揭示了模型从输入到输出的内部映射的一部分。只要有足够多的查询——通常是数百万次——攻击者就能重建一个高保真度的副本。Carlini 等人在 2023 年的研究表明,即使只有 10 万次查询,攻击者也能提取出一个在原始模型基准测试任务上达到 80% 准确率的模型。
防御性对策
Anthropic 和其他领先实验室正在加速部署多种防御措施:
| 防御技术 | 工作原理 | 有效性 | 权衡取舍 |
|---|---|---|---|
| 差分隐私(DP) | 向 API 输出(例如 token 概率)添加校准噪声,以防止精确重建 | 对精确提取效果高;使替代模型保真度降低约 15-25% | 降低输出质量;增加延迟 |
| 模型水印 | 在输出中嵌入难以察觉的统计模式,可在可疑模型中检测到 | 效果中等;水印可通过微调移除 | 需要集中式检测系统;可能被逆向工程 |
| 对抗性扰动 | 略微改变输出以误导替代模型训练,而不影响普通用户 | 效果中等;可通过自适应攻击绕过 | 增加计算开销 |
| 查询速率限制与异常检测 | 限制每个 IP/用户的查询次数,并标记可疑模式(例如高熵查询) | 效果低;老练的攻击者会使用分布式僵尸网络 | 可能阻碍合法的研究用途 |
数据要点:没有一种防御措施是万无一失的。最稳健的方法结合了多层防御——差分隐私用于统计保护,水印用于取证追踪,速率限制用于基本威慑。然而,所有防御措施都有代价:降低输出质量或增加延迟。该行业仍处于开发实用、可扩展防御措施的早期阶段。
相关开源研究
对于对技术细节感兴趣的读者,以下 GitHub 仓库直接相关:
- `llm-attacks`(由 Princeton LLM Security 团队维护):包含针对 LLM 的对抗性攻击方法集合,包括模型提取技术。最近已超过 4000 星。
- `text-stealing-attack`(由 ETH Zurich 维护):演示如何从 LLM 输出中重建训练数据。有助于理解提取向量。
- `watermark-llm`(由 University of Maryland 维护):实现了一种针对 LLM 输出的稳健水印方案。作为防御工具正获得关注。
关键参与者与案例研究
Anthropic:指控方
Anthropic 成立于 2021 年,由前 OpenAI 研究人员 Dario Amodei 和 Daniela Amodei 等人创立,将自己定位为安全至上的 AI 公司。其 Claude 模型——Claude 3.5 Sonnet、Claude 3 Opus 以及最近发布的 Claude 4——以其强大的推理能力、安全对齐和拒绝生成有害内容而闻名。Anthropic 的商业模式几乎完全依赖 API 访问,企业客户按 token 付费。