技术深度解析
混合专家(MoE)架构,由Shazeer等人2017年的论文《Outrageously Large Neural Networks》推广,用多个更小、更专业的FFN(称为“专家”)取代了单一、庞大的前馈网络(FFN)层。一个经过学习的门控网络(即路由器)为每个输入令牌计算一个关于专家的概率分布,通常选择top-k(例如top-2)专家来处理该令牌。所选专家的输出随后通过加权求和进行组合。这使得模型能够大幅扩展总参数量,同时保持每个令牌的计算成本(FLOPs)相对恒定,因为只有一部分专家被激活。
新发现的漏洞源于这样一个事实:路由器的输出——即为每个令牌选择的专家集合——是输入语义内容的函数。由于专家在训练过程中会实现专业化(例如,有些专家成为代码专家,有些成为法律文本专家,有些成为诗歌专家),激活模式与输入领域高度相关。研究表明,一个在专家激活向量上训练的简单分类器,能够以高准确率预测文档的主题。例如,包含“lawsuit”一词的令牌可能会持续激活专家#12、#45和#78,而包含“quantum”的令牌则激活专家#3、#22和#91。
泄露机制:
1. 令牌级指纹识别: 每个令牌的专家选择向量是一个稀疏的高维签名。攻击者可以收集一组已知输入(例如来自公共数据集)的这些向量,并训练一个映射到语义类别的模型。
2. 序列级聚合: 通过聚合序列中所有令牌的专家选择,攻击者可以构建整个输入的稳健画像,从而平滑令牌级的噪声。
3. 侧信道获取: 在云端部署中,攻击者可以通过定时侧信道(不同专家可能有不同的计算时间)、功耗,甚至针对共享GPU内存的缓存定时攻击来监控模型的专家激活模式。研究表明,通过访问模型的API延迟日志,可以高保真地重建激活模式。
相关开源仓库:
- Mixtral-8x7B (GitHub: mistralai/mistral-src): 一个拥有8个专家的知名开源MoE模型。该仓库提供了精确的路由器实现,使其成为研究此泄露的主要候选对象。该项目已获得超过8000颗星。
- DeepSeek-MoE (GitHub: deepseek-ai/DeepSeek-MoE): 另一个主要的开源MoE模型,采用细粒度的专家分配策略。其架构略有不同,使用了更多、更小的专家。该项目已获得超过1500颗星。
- Tutel (GitHub: microsoft/tutel): 微软开发的高性能MoE框架,实现了动态专家放置。研究人员已开始使用它来测试混淆技术。
数据表:不同主题下的专家激活模式相似性
| 输入主题 | 平均专家重叠度(Jaccard指数) | 方差 | 独特专家(Top-3) |
|---|---|---|---|
| 法律 | 0.82 | 0.04 | E12, E45, E78 |
| 医学 | 0.79 | 0.05 | E3, E22, E91 |
| 代码(Python) | 0.85 | 0.03 | E5, E33, E67 |
| 诗歌 | 0.71 | 0.08 | E8, E19, E44 |
| 一般新闻 | 0.65 | 0.12 | (分布广泛) |
数据要点: 主题内的高Jaccard相似度(0.71-0.85)和低方差表明,专家激活模式在特定领域内高度一致,使其成为可靠的语义指纹。“独特专家”一列显示,每个主题都有一组被重度使用的独特专家,从而能够实现近乎完美的分类。
关键参与者与案例研究
1. Mistral AI (Mixtral 8x7B): Mistral的开源MoE模型是研究领域部署最广泛的模型。该公司尚未公开回应此漏洞。他们的重点一直放在性能基准测试上,而非安全性。其模型的开放性使其成为攻击和防御研究的主要试验场。
2. DeepSeek (DeepSeek-V2): DeepSeek采用了独特的“多头潜在注意力”结合细粒度MoE。其架构使用了更多专家(例如160个),但top-k值更低(例如6个),这可能会使信息分布得更稀疏。这可能会稀释泄露,或者创造一个更复杂但仍然可利用的签名。其研究团队在发布关于路由的消融研究方面一直很积极。
3. Google DeepMind (GLaM, PaLM, Gemini): Google通过GLaM(2021年)率先实现了大规模MoE,并将其用于Gemini。作为闭源提供商,他们在安全方面损失最大。他们很可能已经在研究内部对策,例如向路由决策中添加噪声,但尚未公开发布任何信息。
4. OpenAI (GPT-4): 虽然OpenAI尚未确认GPT-4的架构,但强有力的证据(泄露的细节、参数量、推理成本)表明