技术深度剖析
信任危机的核心,在于现代生成式模型的架构。大型语言模型(LLM)和扩散模型以黑箱方式运作:它们能输出令人瞠目的流畅内容,却没有任何内在机制来保证真实性、公平性或安全性。行业的主导范式——规模定律——一直聚焦于增加参数、训练数据和算力,其隐含假设是涌现能力将自动包含对齐。这一假设已被证明危险地不完整。
可解释性鸿沟:
从OpenAI的GPT-4o到Anthropic的Claude 3.5和Google的Gemini 2.0,当前最先进的模型都依赖Transformer架构。虽然注意力机制能提供一些关于哪些输入token影响输出的线索,但它无法解释模型为何会做出特定的道德或事实判断。诸如机制可解释性(例如Anthropic在叠加态和特征提取方面的工作)等技术前景广阔,但仍处于研究阶段。目前没有任何生产模型能够为其决策提供因果解释。
安全沦为事后补救:
RLHF(基于人类反馈的强化学习)和宪法式AI等安全措施,都是在预训练之后才打上的补丁。它们可能被简单的对抗性提示破解——这种脆弱性恰似《黑镜》剧集《潘达斯奈基》(Bandersnatch)的情节,用户的选择可以覆盖系统的约束。开源生态加剧了这一问题。像llama.cpp(超过70000颗星)和vLLM(超过40000颗星)这样的代码仓库,让任何人都能在本地运行未经审查的模型,从而移除所有安全护栏。在普及访问权限的同时,这也创造了一个“狂野西部”,恶意行为者可以微调模型用于虚假信息、深度伪造生成或自动骚扰。
基准数据:进步的幻象
MMLU、HellaSwag和HumanEval等标准基准衡量的是任务表现,却忽略了伦理维度。一个模型可能在MMLU上取得90%的分数,同时仍然生成有偏见或有害的内容。下表比较了领先模型在性能和安全性指标上的表现:
| 模型 | MMLU分数 | TruthfulQA(真实性) | RealToxicityPrompts(毒性百分比) | 每百万token输入成本 |
|---|---|---|---|---|
| GPT-4o | 88.7 | 59.0 | 4.2% | $5.00 |
| Claude 3.5 Sonnet | 88.3 | 62.5 | 3.1% | $3.00 |
| Gemini 1.5 Pro | 85.9 | 54.8 | 5.8% | $3.50 |
| Llama 3 70B | 82.0 | 48.2 | 8.5% | $0.88(开源) |
数据要点: MMLU表现与安全性指标之间的相关性很弱。Claude 3.5的MMLU分数略低于GPT-4o,但在真实性和毒性方面表现更优。开源模型Llama 3虽然成本低廉,但毒性显著更高、真实性更低,这揭示了可访问性与安全性之间的权衡。
视频生成难题:
OpenAI的Sora和Runway的Gen-3 Alpha等模型引入了一个全新的风险前沿。它们可以根据文本提示生成逼真的视频,但其训练数据不可避免地包含受版权保护的素材和有偏见的表征。检测AI生成视频的技术挑战极其巨大。当前的检测工具(例如Google DeepMind的SynthID)会嵌入隐形水印,但这些水印可以被移除或伪造。《黑镜》剧集《琼糟透了》——其中一家流媒体服务根据用户的生活生成节目——已不再是科幻;它在未来两到三年内将成为技术上的可能。
要点: 行业必须将可解释性和内置安全作为首要的工程目标来投资,而非事后补救。没有因果透明度,每个模型都是潜在的负债。
关键玩家与案例研究
OpenAI: 该公司在推动能力边界方面最为激进,从GPT-4到Sora皆是如此。然而,其安全策略始终是被动的。2023年末的董事会风波——核心是商业化速度与安全性之间的分歧——暴露了公司内部深刻的裂痕。OpenAI负责确保AGI对齐的超级对齐团队,产出了理论论文,却未能拿出可部署的解决方案。GPT-4o语音模式的发布——该模式可以被提示表现出轻浮或情绪化的行为——直接呼应了《黑镜》剧集《马上回来》(Be Right Back),其中AI复制了已故者的个性。
Anthropic: 作为安全优先的替代方案,Anthropic的宪法式AI方法——训练模型遵循一套伦理原则——是向前迈进的一步。Claude 3.5较低的毒性分数反映了这一点。然而,该公司尚未解决可解释性问题。其在神经网络“特征”方面的研究处于前沿,但仍然是研究项目,而非产品功能。其使命与融资需求(迄今已超过70亿美元)之间的紧张关系,造成了持续的压力,迫使公司在功能完全安全之前就将其推出。
Google DeepMind: 凭借Gemini,Google试图从一开始就将安全整合进