技术深度解析
Amodei批评的核心是一个基本的技术区别:在大型语言模型的语境中,“开放”究竟意味着什么?传统的开源软件发布的是人类可读的源代码,可以检查、修改、编译和重新分发。这实现了一种协作开发模式,任何人都可以提交补丁、修复错误或添加功能。其结果是一个良性的改进循环,正如Linux内核(超过2000万行代码,数千名贡献者)或Python解释器等项目所展现的那样。
然而,AI模型并非以同样的方式由源代码构建。定义模型的“代码”是其架构(例如Transformer、混合专家模型)和训练算法。但实际的“程序”是一组学习到的权重——数十亿或数万亿个浮点数,编码了模型的行为。当像Meta这样的公司发布Llama 3.1 405B时,它提供的是二进制文件形式的权重(通常为PyTorch或Safetensors格式),以及一个配置文件和有时包括的推理代码。但训练数据、训练流程、超参数搜索和架构决策仍然是专有的。
这就是“开放权重”一词被创造出来的原因。它准确地描述了发布的内容:训练好的参数,而非完整的开发环境。但即使如此,这也只是一个光谱。一些发布,如Mistral AI的模型,仅包含权重和一个基本的推理脚本。其他发布,如EleutherAI的Pythia系列,还发布了训练数据和代码,实现了可复现性。最“开放”的例子是BLOOM项目,它在宽松许可下发布了完整的训练流程、数据和权重。但这些是例外,而非常态。
技术上的影响是深远的:仅凭权重,你无法修改模型的基本行为。你可以进行微调(在新数据上调整权重),但无法改变架构、训练目标或数据组成。你本质上是在使用一个预构建的引擎,而不是自己构建一个。这将协作潜力限制在下游应用上,而非核心模型开发。
数据表格:主要AI模型的开放程度光谱
| 模型 | 权重已发布? | 训练代码? | 训练数据? | 架构文档? | 许可证类型 |
|---|---|---|---|---|---|
| Llama 3.1 405B | 是 | 否 | 否 | 部分 | 自定义(允许商业使用) |
| Mistral 7B | 是 | 否 | 否 | 极少 | Apache 2.0 |
| Falcon 180B | 是 | 否 | 否 | 部分 | TII Falcon License |
| Pythia (EleutherAI) | 是 | 是 | 是 | 完整 | Apache 2.0 |
| BLOOM | 是 | 是 | 是 | 完整 | Responsible AI License |
| GPT-4o (OpenAI) | 否 | 否 | 否 | 否 | 专有 |
| Claude 3.5 Sonnet (Anthropic) | 否 | 否 | 否 | 否 | 专有 |
数据要点: 该表格揭示了一个鲜明的分界线。只有少数模型(Pythia、BLOOM)符合传统开源的定义。绝大多数“开放”模型实际上只是开放权重,包含大量专有组件。这支持了Amodei关于“开源”一词具有误导性的说法。
另一个技术细微差别是“模型编辑”或“机械可解释性”的概念。研究人员已经开发出技术来定位和修改模型内的特定电路(例如GPT-2中的“事实回忆”电路)。但这些是研究级别的工具,尚未投入生产。对于大多数开发者来说,模型仍然是一个黑箱。GitHub上的“TransformerLens”库(超过3000颗星)是一个值得注意的努力,旨在使模型内部更可解释,但它距离传统开源代码的透明度仍有很大差距。
要点: 技术现实是,开放权重模型更类似于预编译的二进制文件,而非开源代码。如果没有完整的训练流程——几乎没有公司会发布——就不可能对模型本身进行真正的协作。这使得Amodei的批评在技术上是合理的,即使他的结论是出于自身利益。
关键参与者与案例研究
Amodei的评论正值两个阵营之间激烈竞争之际:“开放”阵营(由Meta、Mistral AI和EleutherAI领导)和“封闭”阵营(由OpenAI、Anthropic和Google DeepMind领导)。每个阵营都有独特的策略和过往记录。
Meta(Llama系列): Meta一直是开放权重模型最积极的倡导者。通过Llama 2和Llama 3,他们在宽松许可下发布了数十亿参数的模型,允许商业使用。这催生了一个庞大的微调变体生态系统(例如Llama-3-8B-Instruct、CodeLlama)和工具(例如Ollama、LM Studio)。Meta的策略是将模型层商品化,并推动其硬件(通过与NVIDIA的合作)和AI服务(如Meta AI)的采用。赌注在于,开放性将带来更快的创新和更广泛的使用,最终使Meta的广告和社交媒体业务受益。