Anthropic vs 阿里巴巴:模型窃取危机,AI安全格局就此改写

Hacker News June 2026
来源:Hacker NewsAnthropicAI security归档:June 2026
Anthropic 投下重磅炸弹,指控阿里巴巴非法提取其 Claude 模型的核心能力。若指控属实,这将是 AI 安全领域的分水岭事件,暴露了 API 交付智能的脆弱性,并开启对抗性模型保护的新纪元。

领先的 AI 安全公司 Anthropic(Claude 模型系列的缔造者)公开指控阿里巴巴对其 Claude 模型的核心能力进行了系统性、非法的提取。这一指控通过正式法律渠道和公开声明发布,称阿里巴巴的 AI 研究团队部署了精密的探测技术,针对 Anthropic 的 API 端点进行逆向工程,以还原 Claude 的内部推理机制、知识表征和架构细节。这绝非简单的数据抓取——而是一次涉嫌窃取定义前沿 AI 模型的知识产权的企图。

该技术方法被称为模型提取或模型窃取,涉及向 API 发送数千个精心构造的查询,分析输出结果,并利用这些数据训练一个替代模型。Anthropic 声称阿里巴巴的行为并非偶发事件,而是有组织的、持续的攻击,可能涉及分布式机器人网络和高级统计技术。如果得到证实,这将是首次公开记录在案的、针对前沿 AI 模型的大规模跨司法管辖区窃取事件。

此案的影响远超两家公司之争。它揭示了 AI 行业的一个根本性安全漏洞:通过 API 交付的智能本质上是可以被复制的。与编译后的软件不同,AI 模型的行为完全暴露在其 API 响应中,使得模型提取成为可能。这迫使整个行业重新思考如何保护其最宝贵的资产——训练好的模型权重和架构知识。

技术深度解析

模型提取,或称模型窃取,是一类攻击手段,旨在通过查询目标模型并利用其响应来训练替代模型,从而复制目标模型的功能。Anthropic 指控阿里巴巴采用的方法,很可能遵循了 2016 年由 Google 和 Cornell 的研究人员首次系统化、后经针对大型语言模型(LLM)大幅改进的成熟方法论。

攻击向量:API 探测与替代模型训练

核心技术包含三个阶段:
1. 查询构造:攻击者向受害者模型的 API 发送海量精心设计的提示。这些提示并非随机生成;它们被精心构造以引出多样化的输出,从而揭示模型的决策边界。对于 LLM,这包括测试事实知识、推理链、编码能力,甚至旨在暴露内部表征的对抗性输入。
2. 输出收集:攻击者收集模型的响应,包括对数概率、token 级别的置信度分数,有时如果 API 暴露了隐藏状态,还会收集这些状态。Anthropic 的 API 与大多数 API 一样,会返回 token 概率,这对于提取来说是金矿,因为它们揭示了模型内部的不确定性和对备选方案的排序。
3. 替代模型训练:收集到的查询-响应对被用来微调一个较小的开源模型(例如 LLaMA、Mistral 或 Qwen),使其模仿目标模型。知识蒸馏和行为克隆等技术被用来使替代模型的输出与原始模型对齐。替代模型无需与目标模型一样大——它只需要在特定的任务分布上复制目标模型的行为。

为何这对 LLM 有效

LLM 特别容易受到提取攻击,因为它们被设计成高度通用且响应灵敏。与逻辑隐藏在编译代码中的传统软件不同,LLM 的行为完全通过其 API 暴露出来。每一次查询都揭示了模型从输入到输出的内部映射的一部分。只要有足够多的查询——通常是数百万次——攻击者就能重建一个高保真度的副本。Carlini 等人在 2023 年的研究表明,即使只有 10 万次查询,攻击者也能提取出一个在原始模型基准测试任务上达到 80% 准确率的模型。

防御性对策

Anthropic 和其他领先实验室正在加速部署多种防御措施:

| 防御技术 | 工作原理 | 有效性 | 权衡取舍 |
|---|---|---|---|
| 差分隐私(DP) | 向 API 输出(例如 token 概率)添加校准噪声,以防止精确重建 | 对精确提取效果高;使替代模型保真度降低约 15-25% | 降低输出质量;增加延迟 |
| 模型水印 | 在输出中嵌入难以察觉的统计模式,可在可疑模型中检测到 | 效果中等;水印可通过微调移除 | 需要集中式检测系统;可能被逆向工程 |
| 对抗性扰动 | 略微改变输出以误导替代模型训练,而不影响普通用户 | 效果中等;可通过自适应攻击绕过 | 增加计算开销 |
| 查询速率限制与异常检测 | 限制每个 IP/用户的查询次数,并标记可疑模式(例如高熵查询) | 效果低;老练的攻击者会使用分布式僵尸网络 | 可能阻碍合法的研究用途 |

数据要点:没有一种防御措施是万无一失的。最稳健的方法结合了多层防御——差分隐私用于统计保护,水印用于取证追踪,速率限制用于基本威慑。然而,所有防御措施都有代价:降低输出质量或增加延迟。该行业仍处于开发实用、可扩展防御措施的早期阶段。

相关开源研究

对于对技术细节感兴趣的读者,以下 GitHub 仓库直接相关:
- `llm-attacks`(由 Princeton LLM Security 团队维护):包含针对 LLM 的对抗性攻击方法集合,包括模型提取技术。最近已超过 4000 星。
- `text-stealing-attack`(由 ETH Zurich 维护):演示如何从 LLM 输出中重建训练数据。有助于理解提取向量。
- `watermark-llm`(由 University of Maryland 维护):实现了一种针对 LLM 输出的稳健水印方案。作为防御工具正获得关注。

关键参与者与案例研究

Anthropic:指控方

Anthropic 成立于 2021 年,由前 OpenAI 研究人员 Dario Amodei 和 Daniela Amodei 等人创立,将自己定位为安全至上的 AI 公司。其 Claude 模型——Claude 3.5 Sonnet、Claude 3 Opus 以及最近发布的 Claude 4——以其强大的推理能力、安全对齐和拒绝生成有害内容而闻名。Anthropic 的商业模式几乎完全依赖 API 访问,企业客户按 token 付费。

更多来自 Hacker News

代码风格是隐藏的税:你的编码习惯如何烧掉LLM的TokenAINews揭示了大语言模型时代一个关键却被忽视的成本驱动因素:代码风格本身。传统的软件工程最佳实践——描述性命名、详尽注释、防御性编码——是为人类读者优化的。但当LLM生成、审查和维护代码时,每个额外字符都变成了经常性开支。我们的分析显示AI智能体记忆碎片化终结:持久化文件系统成为新基础设施一个全新的开源项目正在解决AI智能体生态中最被忽视却至关重要的难题:记忆碎片化。当智能体跨平台运行——从本地Jupyter notebook到云端虚拟机——其上下文和状态通常会丢失。这位开发者的解决方案是一个用Rust构建的持久化文件系统,AI智能体学会读写电子表格:Google Sheets集成重塑企业自动化AINews发现了一场企业AI领域的静默革命:AI智能体与Google Sheets的深度集成。虽然概念听起来简单,但其影响深远。多年来,AI智能体一直被局限在对话界面或孤立的任务执行中,无法触及驱动业务运营的真实数据。拥有超过20亿月活用查看来源专题页Hacker News 已收录 5184 篇文章

相关专题

Anthropic286 篇相关文章AI security59 篇相关文章

时间归档

June 20262506 篇已发布文章

延伸阅读

Anthropic指控阿里巴巴窃取AI模型:全球AI竞赛的信任崩塌Anthropic正式指控阿里巴巴非法获取其专有AI模型,矛头直指模型权重——大语言模型的“基因密码”。这一指控犹如一颗重磅炸弹,将本已脆弱的中美AI领袖间信任彻底炸裂。Copilot 化身安全猎手:Anthropic 漏洞发现框架被移植至微软 AI 平台一位开发者成功将 Anthropic 专为 Claude Code 打造的自主漏洞发现框架移植至 GitHub Copilot CLI,使 Copilot 用户能够自动发现、验证并修复内存安全漏洞。此举打破了 AI 安全工具的平台壁垒,标志Anthropic神话级AI系统遭入侵:前沿模型安全性的致命裂缝Anthropic正在调查其实验性AI工具Mythos的未授权访问事件。这款具备自主多步推理与工具调用能力的智能体系统,暴露了前沿模型能力与运营安全实践之间的结构性鸿沟,或将彻底重塑行业对“智能体安全”的认知。Anthropic的Mythos困境:当防御性AI变得过于危险而无法发布Anthropic近日发布了专为网络安全任务打造的AI模型Mythos,其漏洞发现与威胁分析能力引发关注。然而,公司随即实施了严格的访问控制,将这一强大工具置于高墙之内。这一争议性举措,凸显了现代AI发展中的核心矛盾:如何在变革性潜力与灾难

常见问题

这次模型发布“Anthropic vs Alibaba: The Model Extraction Crisis That Changes AI Security Forever”的核心内容是什么?

Anthropic, the leading AI safety company behind the Claude model family, has publicly accused Alibaba of engaging in systematic, illegal extraction of Claude's core capabilities. T…

从“How does model extraction work technically?”看,这个模型发布为什么重要?

Model extraction, or model stealing, is a class of attacks that aim to replicate a target model's functionality by querying it and using the responses to train a substitute model. The attack Anthropic alleges Alibaba emp…

围绕“What are the best defenses against model stealing?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。