技术深度解析
Gebru与Emily M. Bender、Angelina McMillan-Major和Margaret Mitchell合著的论文,聚焦于“随机鹦鹉”——那些能生成听起来合理但毫无理解意义的文本的LLM——的内在风险。核心技术论点是,这些模型从海量、未经筛选的互联网文本中学习统计相关性,而这些文本不可避免地包含种族主义、性别歧视及其他有害内容。当大规模部署时,这些相关性被放大,产生可能强化刻板印象甚至生成仇恨言论的输出。
五年后,技术证据令人震惊。艾伦人工智能研究所2024年的一项研究发现,GPT-4将听起来像黑人的名字与负面形容词关联起来的可能性比听起来像白人的名字高出12%,即使经过微调,这一差距依然存在。同样,谷歌的Gemini在2024年初因生成历史不准确且种族多样化的纳粹士兵和开国元勋图像而遭遇巨大反弹,这直接源于对训练数据中偏见的过度修正。这些失败并非漏洞;它们是底层架构的固有特征。驱动所有现代LLM的Transformer模型,依赖于学习根据共现模式对token进行加权的注意力机制。如果训练数据包含有偏见的关联——例如,“护士”与“女性”的共现频率高于“男性”——模型就会复制这种偏见。
| 模型 | 偏见指标(BBQ分数) | 毒性率(RealToxicityPrompts) | 每次训练能耗(MWh) |
|---|---|---|---|
| GPT-4 | 72.3%(越低越好) | 8.1% | 50,000(估计值) |
| Gemini 1.5 | 68.9% | 9.4% | 45,000(估计值) |
| Claude 3 | 71.1% | 6.7% | 30,000(估计值) |
| Llama 3 70B | 74.5% | 10.2% | 15,000(开源) |
数据要点: 即使表现最好的模型(Claude 3)仍然表现出不容忽视的毒性和偏见率。训练单个前沿模型的能耗相当于5,000个美国家庭的年用电量。像Llama 3这样的开源模型提供了一种权衡:更低的能耗,但更高的偏见和毒性。
Gebru还警告了计算成本。据估计,训练GPT-4消耗了50,000兆瓦时的电力,产生了25,000吨二氧化碳。行业的应对措施是投资更高效的硬件,例如NVIDIA的H100 GPU,其每瓦性能比A100高出3倍。然而,总体趋势是模型越来越大,而非越来越小。最近宣布的GPT-5据传拥有超过2万亿个参数,估计需要100,000 MWh来训练。GitHub仓库“llm-energy”(5000+星)追踪了这些指标,并显示尽管效率有所提升,但AI训练的总能耗自2020年以来已增长300%。
关键参与者与案例研究
谷歌: 最具讽刺意味的案例。在解雇Gebru后,谷歌花了数年时间试图重建其伦理AI声誉。2023年,它发布了首份《AI原则报告》,明确涉及偏见缓解、能源效率和公平获取——正是Gebru提出的那些议题。然而,该公司继续面临内部异议。2024年,一组谷歌研究人员发表论文,表明其自身的安全过滤器不成比例地审查来自边缘群体的内容,这是Gebru曾预言过的问题。谷歌的Gemini发布因偏见争议而受损,导致CEO Sundar Pichai称图像生成失败“令人尴尬”。该公司此后大力投资红队测试和合成数据生成,但结构性问题依然存在:模型从互联网学习,而互联网是有偏见的。
OpenAI: Gebru含蓄批评的公司——其GPT系列体现了“越大越好”的方法。OpenAI因模型输出多次被起诉侵犯版权和诽谤。2024年,一项研究发现,尽管OpenAI声称有所改进,但GPT-4的输出包含性别刻板印象的可能性比GPT-3.5高出15%。该公司的应对措施是投资“对齐”研究,但批评者认为这不过是杯水车薪。OpenAI的能源消耗已成为公关负担;其数据中心现在消耗加州所有电力的1.5%。
Anthropic: 由前OpenAI员工创立,Anthropic明确将自己定位为“安全AI”替代方案。其Claude模型使用“宪法AI”——一种训练模型遵循一套伦理原则的技术。虽然Claude在偏见基准测试中得分略好,但它并非免疫。2025年,一名用户发现Claude可以被越狱以生成制造炸弹的指令,这对其安全机制的稳健性提出了质疑。Anthropic的能耗低于OpenAI,但其模型能力也较弱,表明性能与安全之间存在权衡。
| 公司 | 模型 | 偏见分数(BBQ) |