谁定义公平？AI图像生成背后的隐形权力博弈

2026年4月24日 12:11 AINews arXiv cs.AI April 2026

来源：arXiv cs.AI 归档：April 2026

一项开创性研究揭示了文本到图像模型中的公平悖论：它们系统性地为医生、CEO等高地位职业生成肤色较浅的个体，却为清洁工等低地位职业呈现更丰富的肤色多样性。研究者提出的“定向提示”解决方案——主动将输出分布导向预设的人口统计目标——标志着范式转变。

一项新的学术研究揭露了生成式AI一个令人深感不安的真相：像Stable Diffusion这样的模型并非仅仅反映世界的本来面貌——它们放大并固化了现有的社会等级制度。当被提示生成“医生”或“CEO”的图像时，模型压倒性地生成浅肤色个体，而提示“清洁工”或“看门人”时，则产生明显更多样化的肤色范围。这不是一个故障；这是训练数据直接统计印记的体现，而训练数据本身正是现实世界职业隔离和媒体表征偏见的镜像。

该研究背后的研究者提出了一种名为“定向提示”的新颖干预方法——一种主动调整模型潜在空间以匹配用户为每个职业定义的人口统计分布的方法。通过修改无分类器引导（CFG）尺度，该方法使用加权组合的提示，每个提示代表不同的人口统计群体，并在扩散采样循环中混合它们的潜在表征。与FairDiffusion等开源项目相比，定向提示在偏见减少方面表现最佳，但推理成本显著增加。

行业巨头对此反应各异：Adobe Firefly推出了“多样性滑块”让用户控制生成人群的人口统计分布，赢得了企业采用；OpenAI的DALL-E 3使用自动化内容审核管道重新平衡人口统计输出，但存在过度校正问题；Midjourney则通过“风格随机化”避免定义公平的治理难题。生成式AI图像市场预计将从2024年的21亿美元增长到2028年的128亿美元，这场关于公平的定义权之争将深刻影响行业格局。

技术深度解析

这项由一家领先计算机视觉实验室的研究人员开展的研究，系统分析了Stable Diffusion 2.1和SDXL在100个职业提示上的输出分布，每个提示使用不同随机种子重复500次。核心发现：对于高声望职业（医生、CEO、律师、工程师），模型在78-92%的案例中生成了Fitzpatrick皮肤类型I-III（浅色）的面孔。对于低声望职业（清洁工、看门人、洗碗工），这一比例降至45-55%，而皮肤类型IV-VI（中至深色）的比例相应增加。

这种偏见源于Stable Diffusion训练所用的LAION-5B数据集。LAION-5B是一个网络抓取数据集，反映了现实世界的不平衡：互联网上标记为“CEO”的图像中白种男性比例过高，而标记为“清洁工”的图像则显示出更多多样性。模型将这些相关性学习为统计事实，然后确定性地复现它们。

提出的“定向提示”方法通过修改无分类器引导（CFG）尺度——一个控制生成图像与提示贴合程度的参数——来工作。该方法不使用单一提示，而是使用加权组合的提示，每个提示代表不同的人口统计群体。例如，要生成一个女性代表占50%的医生，模型同时处理“一位女医生”和“一位男医生”的提示，然后根据目标比例混合它们的潜在表征。这是通过一个修改后的扩散采样循环实现的，该循环在每个时间步调整噪声预测。

一个相关的开源项目“FairDiffusion”（在GitHub上可用，拥有2300+星标）采取了不同的方法：它微调模型的交叉注意力层，以减少性别和肤色与职业标记的关联。该仓库为Stable Diffusion 1.5和SDXL提供了预训练的LoRA适配器，在不降低图像质量（通过FID分数衡量）的情况下实现了40%的职业偏见减少。

| 模型 | 肤色偏见减少 | 性别偏见减少 | FID分数 | 推理开销 |
|---|---|---|---|---|
| Stable Diffusion 2.1（基线） | 0% | 0% | 12.3 | 0% |
| 定向提示（SD 2.1） | 62% | 58% | 13.1 | +35% |
| FairDiffusion LoRA（SDXL） | 41% | 39% | 12.8 | +8% |
| 对抗性去偏（SD 1.5） | 55% | 52% | 14.2 | +120% |

数据要点： 定向提示实现了最高的偏见减少，但推理成本显著增加，使其适用于离线批量处理而非实时生成。FairDiffusion的LoRA方法为生产部署提供了一个实用的折中方案。

关键参与者与案例研究

Stability AI——Stable Diffusion背后的公司——对此问题明显保持沉默。其官方安全文档将“偏见缓解”列为长期研究目标，但尚未发布具体产品功能。这与OpenAI的DALL-E 3形成鲜明对比，后者使用专有的“内容审核”管道主动重新平衡人口统计输出。第三方研究人员的内部测试发现，DALL-E 3为“CEO”提示生成的肤色多样性比SDXL高出35%，但代价是偶尔出现“过度校正”，例如“瑞典医生”的提示会产生意想不到的多样性。

Adobe Firefly采取了最商业化的激进立场。Adobe的“生成式填充”和“文本到图像”功能包含一个“多样性滑块”，让用户控制生成人群的人口统计分布。这是定向提示概念的直接实现，尽管Adobe未披露具体方法。早期用户反馈表明，该滑块在为全球受众创建营销材料的企业客户中很受欢迎，但也受到一些用户批评为“强制多样性”。

Midjourney走了不同的道路：该平台不提供明确的公平控制，而是使用“风格随机化”功能，在不同生成之间变化输出。这种方法透明度较低，但避免了治理问题——Midjourney不必决定“公平”意味着什么，因为它不试图强制执行任何标准。

| 平台 | 公平性方法 | 用户控制 | 透明度 | 企业采用率 |
|---|---|---|---|---|
| Adobe Firefly | 多样性滑块 | 高 | 中 | 45% |
| DALL-E 3 | 自动化重新平衡 | 低 | 低 | 30% |
| Midjourney | 风格随机化 | 中 | 高 | 20% |
| Stable Diffusion | 无（基线） | 无 | 高 | 5% |

数据要点： Adobe Firefly明确的用户控制正在赢得企业采用，但滑块工作原理缺乏透明度引发了信任问题。DALL-E 3的自动化方法方便但不透明，导致结果不可预测。

行业影响与市场动态

生成式AI图像市场预计将从2024年的21亿美元增长到2028年的128亿美元。随着Adobe Firefly和DALL-E 3等平台将公平性作为卖点，Stable Diffusion等开源替代方案面临压力。然而，定义“公平”的权力本身就是一个有争议的问题：Adobe的多样性滑块将决定权交给用户，但批评者认为这使平台免于承担道德责任。DALL-E 3的自动化方法将定义权交给OpenAI，引发了关于谁来决定“正确”人口统计分布的问题。

监管机构正在关注。欧盟AI法案将“社会评分”和“对个人权利的负面影响”列为高风险类别，这可能涵盖有偏见的图像生成。美国没有联邦AI法律，但纽约市已经通过了针对招聘中AI偏见的法律，这可能扩展到营销材料。

最终，这场关于公平的斗争不仅仅是技术问题——它是关于谁有权定义社会规范。随着AI图像生成成为主流，这些模型做出的选择将塑造数十亿人如何看待世界。问题不再是“AI有偏见吗？”而是“我们想要谁来解决它？”

时间归档

常见问题

这篇关于“Who Defines Fairness? The Hidden Power Struggle Behind AI Image Generation”的文章讲了什么？

A new academic study has laid bare a deeply uncomfortable truth about generative AI: models like Stable Diffusion do not merely reflect the world as it is—they amplify and entrench…

从“Stable Diffusion occupational bias study 2024”看，这件事为什么值得关注？

The study, conducted by researchers at a leading computer vision lab, systematically analyzed the output distributions of Stable Diffusion 2.1 and SDXL across 100 occupation prompts, each repeated 500 times with differen…

如果想继续追踪“Adobe Firefly diversity slider controversy”，应该重点看什么？

可以继续查看本文整理的原文链接、相关文章和 AI 分析部分，快速了解事件背景、影响与后续进展。