技术深度解析
模型蒸馏,其核心是一种技术,即训练一个更小、更高效的“学生”模型来模仿一个更大、能力更强的“教师”模型的行为。这通常通过让学生模型学习教师模型的输出概率(logits)或教师模型生成的合成数据来实现。该过程可以大幅降低推理的计算成本和延迟,同时保留教师模型大部分性能。然而,当教师模型是专有的且通过API访问时,这种做法便进入了法律灰色地带。
Anthropic的指控核心在于,它声称阿里巴巴Qwen团队对其Claude模型进行了系统性、大规模的知识提取。其技术机制很可能涉及向Claude的API发送数百万个精心设计的提示词,收集响应,然后利用这些数据对Qwen模型进行微调或训练。这与学术界传统的“知识蒸馏”不同,后者中教师和学生模型都是公开可用的。此次的规模使其前所未有:Anthropic指控阿里巴巴利用其API生成训练数据,用于训练如今在开源市场上与Claude直接竞争的模型。
从工程角度来看,Qwen团队一直是开源AI领域的强者。例如,Qwen2.5-72B模型在GitHub上拥有超过10,000颗星,被广泛用于微调和部署。该团队还发布了Qwen2.5-Coder和Qwen2.5-Math,这些专业变体在编程和数学基准测试中取得了最先进的结果。指控表明,这些模型的性能可能因从Claude蒸馏而得到提升,这或许可以解释其快速改进的轨迹。
| 模型 | 参数 | MMLU得分 | HumanEval Pass@1 | 每百万token成本(API) |
|---|---|---|---|---|
| Claude 3.5 Sonnet | 未知 | 88.7 | 92.0 | $3.00 |
| Qwen2.5-72B | 72B | 85.3 | 85.4 | $0.90(开源,自托管) |
| GPT-4o | ~200B(估计) | 88.7 | 90.2 | $5.00 |
| Llama 3.1-70B | 70B | 86.0 | 89.0 | 免费(开源) |
数据要点: Qwen2.5-72B的MMLU得分85.3非常接近Claude 3.5的88.7,尤其考虑到其72B的参数规模。虽然这可能是由于更优的训练数据或架构,但与Claude性能的接近引发了关于潜在蒸馏的合理质疑。开源模型的成本优势(自托管基本免费)为此类做法创造了强大动力。
关键参与者与案例研究
Anthropic由前OpenAI研究员Dario Amodei和Daniela Amodei创立,将自己定位为AI竞赛中注重安全的替代选择。其Claude模型以强大的推理能力和安全对齐而闻名。该公司已筹集超过76亿美元,主要投资者包括Google和Spark Capital。其针对中国AI团队的法律策略是保护其核心知识产权和市场地位的精心策划之举。
阿里巴巴Qwen团队由Tong Zhang和Hao Zhou等研究人员领导,已成为全球最多产的开源AI团队之一。Qwen模型系列涵盖从适用于边缘设备的0.5B参数模型到110B参数的Qwen2.5-110B。该团队的策略是在宽松许可证(Apache 2.0)下发布模型,迅速构建了一个可与Meta的Llama系列相媲美的开发者生态系统。这种开源方式使Qwen成为亚洲及其他地区初创企业和企业的最爱。
Anthropic针对的其他三个中国团队——百度的ERNIE团队、字节跳动的Doubao团队和智谱AI的GLM团队——各有优势。百度的ERNIE 4.0拥有强大的中文语言能力,字节跳动的Doubao专注于多模态理解,而智谱AI的GLM-4在许多基准测试中是GPT-4的直接竞争对手。共同点是,这四个团队都发布了在性能上与专有美国模型相抗衡的开源模型。
| 公司 | 模型 | 核心优势 | 开源许可证 | 估计训练成本 |
|---|---|---|---|---|
| 阿里巴巴 | Qwen2.5-110B | 通用推理、编程 | Apache 2.0 | $10-20M |
| 百度 | ERNIE 4.0 | 中文语言、搜索 | 自定义 | $15-25M |
| 字节跳动 | Doubao | 多模态、视频 | 自定义 | $8-15M |
| 智谱AI | GLM-4 | 双语、效率 | Apache 2.0 | $5-10M |
数据要点: 这些中国团队使用的开源许可证(阿里巴巴和智谱AI使用Apache 2.0)是最宽松的,允许无限制使用和修改。这与Anthropic的专有方式形成鲜明对比。估计的训练成本虽然可观,但只是Anthropic和OpenAI花费的一小部分,表明蒸馏可能是一种经济高效的捷径。
行业影响与市场动态
这场法律运动正在重塑AI行业的竞争格局。直接影响是对跨境模型开发产生了寒蝉效应。