技术深度解析
问题广告所展现的故障模式,根植于现代图像生成模型(主要是扩散模型)的基础架构。这些模型,例如支撑Stable Diffusion的潜在扩散架构,并不存储或检索图像。相反,它们学习如何将随机高斯噪声迭代去噪,转化为符合给定文本提示的连贯图像,整个过程由文本标记与图像潜在表示之间的交叉注意力机制引导。
不稳定性源于多个技术层面:
1. 提示词嵌入与注意力漂移:文本提示通过CLIP等模型转换为嵌入向量。模糊、矛盾或定义不足的提示词可能导致嵌入向量激活模型潜在空间中的多个(有时是相互矛盾的)概念。引导去噪过程的交叉注意力层可能因此“混淆”,以非自然的方式混合特征——例如人脸比例扭曲或物体不自然地融合。
2. 无分类器引导(CFG)尺度:这是一个关键的超参数,控制生成结果对提示词的遵从强度。较高的CFG值会增强提示词对齐度,但也可能导致模型过度校正,产生色彩过饱和、怪异且充满伪影的图像。在自动化流程中,此参数可能被激进地设置以确保“创造性”,无意中增加了产出怪诞结果的风险。
3. 潜在空间导航与边缘案例:模型的潜在空间极为广阔且并非均匀映射。某些区域对应连贯图像,而另一些则是产出无意义内容的“死区”。自动生成数千个变体的系统可能无意中从这些不稳定区域采样,尤其是在使用广告中常见简短、重复或为搜索引擎优化(SEO)的提示词时(例如,“快乐多元的人群在明亮的房间里使用产品”)。
开源项目正积极应对这些问题。`LAION-AI/CLIP-based-prompt-engineering` 代码库提供了分析提示词鲁棒性的工具。更重要的是,`Salesforce/BLIP-2` 及类似的图像描述模型正被反向用于构建“安全网”——为AI生成的图像生成描述,并与原始提示词对比以标记差异。另一个关键代码库是 `lllyasviel/ControlNet`,它允许对生成过程施加结构约束(如人体姿势或边缘),从而降低随机性,但也增加了复杂性。
| 安全机制 | 方法 | 优点 | 缺点 | 在商业流程中的采用水平(预估) |
|---|---|---|---|---|
| 事后图像分类器 | 将生成的图像通过NSFW/暴力等内容分类器(如OpenAI的内容过滤器)运行。 | 易于实施,能捕捉严重故障。 | 遗漏细微的怪异之处,无视上下文,增加延迟。 | 高(约70%的主要平台) |
| 提示词筛查与禁令列表 | 过滤输入提示词中的禁用术语或概念。 | 阻止已知的问题请求。 | 容易通过同义词或拼写错误规避;限制创造性。 | 非常高(>90%) |
| 人在回路审核 | 人类在部署前审批每一项最终素材。 | 质量和安全的黄金标准。 | 昂贵、缓慢,难以扩展至超个性化广告。 | 低且呈下降趋势(对于高流量广告活动<30%) |
| 一致性检查(如BLIP-2) | 为输出生成描述并与输入提示词对比。 | 捕捉提示词与图像的偏差,更细致。 | 计算成本高,需调整以减少误报。 | 非常低(<10%) |
| 对抗性训练 | 在“失败案例”上训练模型以避免之。 | 从模型内部解决根本原因。 | 需要精心策划的失败数据集,可能降低模型能力。 | 处于研究萌芽期(如Anthropic的Constitutional AI) |
数据启示:数据显示,行业严重依赖简单被动的过滤器(分类器、禁令列表),而更稳健、主动的措施(一致性检查、人工审核)则因成本与速度考量未被充分利用。这造成了一个脆弱缺口,使得“怪异但未明确涉及暴力/色情”的内容轻易漏网。
关键参与者与案例研究
竞争格局在模型提供商、平台集成商以及新兴的AI安全中间件领域之间划分。
模型提供商:
* OpenAI (DALL-E 3, Sora):采取高度防护、以API为中心的策略,内置内容政策与提示词重写机制。其战略优先考虑安全性,但代价是用户控制权,有时甚至是创作灵活性。最近的广告事件并未涉及其模型,凸显了故障并非特定提供商的问题。
* Stability AI:代表了开放权重的理念。其Stable Diffusion模型功能强大,但内置保障措施极少,将安全责任转移给了下游开发者和集成商。这既催生了快速创新,也导致了备受瞩目的滥用案例。