技术深度解析
Hyperbola 与 FSF 之间的核心技术冲突,围绕机器学习模型与传统软件的根本性质差异展开。在传统软件中,源代码是一套人类可读、确定性的指令集。程序员编写代码,编译器或解释器生成行为可预测的二进制文件。源代码就是“真理”——它直接编码了作者的意图,可以被审计、修改和重新构建。
机器学习模型,尤其是深度神经网络,遵循的则是一种完全不同的范式。它们不是被“编写”出来的,而是被“训练”出来的。训练过程涉及将模型架构(例如 Transformer)与海量数据集一同输入,并使用优化算法(如随机梯度下降)调整数十亿个参数(权重),直到模型产生期望的输出。最终得到的“模型”就是这一组权重——一个巨大的、难以理解的浮点数矩阵。这就是 AI 时代的“源代码”,但在任何有意义的层面上,它都不是人类可读的。
可复现性危机: Hyperbola 对“确定性过程”的要求在技术上极具挑战性。即使使用相同的架构、数据集和超参数,训练大型模型也因 GPU 硬件差异、随机种子初始化以及浮点运算差异等因素而具有非确定性。像 [Determined AI](https://github.com/determined-ai/determined)(现属 HPE)和 [MLflow](https://github.com/mlflow/mlflow)(超过 18,000 颗星)这样的项目试图通过追踪实验来解决可复现性问题,但它们无法保证在不同硬件上实现比特级精确复现。开源库 [Hugging Face Transformers](https://github.com/huggingface/transformers)(超过 130,000 颗星)提供了模型架构和训练脚本,但权重本身通常单独托管,训练数据也极少完全公开。
数据透明度问题: 最具争议的问题是训练数据。Hyperbola 坚持认为,一个模型若要被视为自由软件,其训练数据必须完全开放且可验证。对于现代大型语言模型(LLM)而言,这几乎是一个不可能达到的标准。像 Meta 的 Llama 3 或 Mistral 的模型,其训练数据集包含了整个公共互联网、受版权保护的书籍以及专有数据。确切的数据组成是商业机密。即使数据集是“开放”的,例如 Common Crawl 或 The Pile(EleutherAI 的一个 800GB 数据集),它们也包含受版权保护的材料、个人信息和有害内容。[OpenLLaMA](https://github.com/openlm-research/open_llama) 项目曾尝试使用完全开放的数据复现 Meta 的 LLaMA,但这需要巨大的计算资源,且最终性能仍无法与原版匹敌。
透明度差距基准测试:
| 模型 | 架构开放 | 权重开放 | 训练数据完全公开 | 确定性可复现性 |
|---|---|---|---|---|
| GPT-4 | 否 | 否 | 否 | 否 |
| Llama 3 (Meta) | 是 | 是(权重) | 部分(数据混合,非原始数据) | 否 |
| Mistral 7B | 是 | 是 | 部分 | 否 |
| OpenLLaMA (EleutherAI) | 是 | 是 | 是(The Pile) | 部分(依赖硬件) |
| BLOOM (BigScience) | 是 | 是 | 是(ROOTS 语料库) | 是(相同硬件上) |
数据要点: 该表格显示,只有社区驱动的项目 BLOOM 接近 Hyperbola 所追求的完全透明理想。即便如此,其训练数据(ROOTS)也是一个经过精心策划的多语言语料库,而非整个互联网。这表明,自由软件关于“源代码”的理想,与当前 AI 训练的规模和性质并不兼容。
FSF 的务实妥协: FSF 的立场承认了这一现实。它认为,模型的*输出*(例如生成的文本、代码)可以自由许可,并且用户应有权将模型*作为程序*来运行、学习、分享和修改。这是一种试图调和自由软件原则与 AI 的务实尝试。Hyperbola 认为这远远不够,并指出,如果没有完整的数据和过程透明度,模型就是一个无法被真正有意义地研究或修改的“黑箱”。如果你不知道是什么数据导致了模型的偏见,你就无法修复它。
要点: 技术现实是,Hyperbola 对完全确定性可复现性和完整数据透明度的要求,对于当前最先进的模型而言是不可行的。这迫使人们做出选择:要么接受一个对 AI 而言打了折扣的“自由”定义,要么拒绝将大多数 AI 视为非自由软件。Hyperbola 选择了后者。
关键参与者与案例研究
Hyperbola GNU/Linux: 一款基于 Arch Linux 和 OpenBSD 的发行版,以其比 Debian 自由软件指南更为严格的“Hyperbola 自由”标准而闻名。他们此前曾移除过 Linux 内核的二进制 blob 和非自由固件。他们对 FSF 的 AI 立场的拒绝,是其一贯原则的延续。