技术深度解析
争议的核心在于大型语言模型对数据的贪婪需求。Meta的LLaMA系列——从LLaMA 1(7B、13B、33B、65B参数)到LLaMA 3.1(8B、70B、405B参数)——需要数万亿个高质量文本Token进行预训练。行业的肮脏秘密是,最有价值的数据——受版权保护的书籍、付费墙后的新闻文章、专有代码——往往也是实现最先进性能最有效的素材。
据爆料,Meta的做法涉及系统性地抓取Bibliotik和LibGen等影子图书馆,这些网站托管着数百万本受版权保护的书籍。其技术流程可能包括:
- 大规模网络爬虫:使用经过修改的Common Crawl版本,针对高质量域名进行过滤。
- 去重与过滤:使用MinHash和布隆过滤器去除低质量内容和近似重复项。
- 分词:使用针对目标语言优化的SentencePiece或BPE(字节对编码)分词器。
- 训练基础设施:Meta的Research SuperCluster(RSC)拥有16,000块NVIDIA A100 GPU,能够在15万亿Token上训练405B参数的模型。
工程上的挑战在于,事后移除受版权保护的数据几乎是不可能的。一旦模型训练完成,其权重就编码了来自所有训练数据的统计模式。差分隐私或模型遗忘等技术仍处于实验阶段,且会显著降低性能。这造成了一种技术锁定:一旦你在受版权保护的数据上进行了训练,就无法轻易撤销,除非从头开始重新训练。
一个相关的开源项目是Pile(GitHub: EleutherAI/the-pile),这是一个825 GiB的多样化文本数据集,明确包含了受版权保护的书籍。其维护者曾面临法律威胁。另一个是RedPajama(GitHub: togethercomputer/RedPajama-Data),它试图创建一个完全开放、法律上干净的数据集,但在质量上始终难以匹敌受版权保护的来源。
| 模型 | 参数 | 训练数据规模 | 估计受版权保护内容占比 | MMLU得分 |
|---|---|---|---|---|
| LLaMA 1 | 65B | 1.4T Token | ~15%(书籍、文章) | 63.4 |
| LLaMA 2 | 70B | 2.0T Token | ~12%(书籍、文章) | 68.9 |
| LLaMA 3.1 | 405B | 15T Token | ~8%(书籍、文章、代码) | 88.6 |
| GPT-4o | ~200B(估计) | 未知 | 未知 | 88.7 |
| Claude 3.5 Sonnet | — | 未知 | 未知 | 88.3 |
数据要点: 表格显示,尽管Meta在LLaMA 3.1中相比LLaMA 1降低了受版权保护内容的百分比,但由于总数据集扩大了10倍,受版权保护数据的绝对数量却急剧增加。MMLU得分表明,LLaMA 3.1现已能与专有模型竞争,这暗示激进的数数据策略在性能上取得了回报——代价是法律风险的暴露。
关键人物与案例研究
关键人物是马克·扎克伯格,他亲自批准了这一策略。这一点意义重大,因为在某些司法管辖区,它可能将责任从公司转移到CEO个人身上。Meta首席AI科学家Yann LeCun曾公开主张,在美国,使用受版权保护的数据进行训练构成“合理使用”,但这一立场如今被公司内部对风险的承认所削弱。
作者兼针对Meta的集体诉讼首席原告Sarah Silverman,如今掌握了侵权是蓄意行为的确凿证据。她的案件,连同George R.R. Martin、John Grisham和《纽约时报》的案件,将因这一爆料而得到加强。
在技术方面,Hugging Face联合创始人Thomas Wolf呼吁建立明确的法律框架,指出当前的不确定性损害了开源开发。Stability AI此前曾因训练数据问题面临Getty Images的类似诉讼,但该案涉及的是图像而非文本,且没有CEO级别的授权。
| 公司 | 模型 | 数据来源 | 法律状态 | 主要诉讼 |
|---|---|---|---|---|
| Meta | LLaMA 3.1 | 影子图书馆、网络爬虫 | 正在进行中的诉讼 | Silverman诉Meta、NYT诉OpenAI/Microsoft |
| OpenAI | GPT-4o | 网络爬虫、授权数据 | 正在进行中的诉讼 | NYT诉OpenAI、Authors Guild诉OpenAI |
| Google | Gemini | 网络爬虫、授权数据 | 无重大诉讼 | — |
| Anthropic | Claude 3.5 | 授权数据、网络爬虫 | 无重大诉讼 | — |
| Stability AI | Stable Diffusion | LAION-5B(包含受版权保护的图像) | 与Getty达成和解 | Getty Images诉Stability AI |
数据要点: Meta和OpenAI在版权诉讼中面临的风险最大,而Google和Anthropic则采取了更为谨慎的做法,通过授权数据或避免高调爬虫来规避风险。该表格揭示了激进的数据获取策略与法律风险暴露之间的明确关联。
行业影响与市场动态
市场最直接的影响是投资者纷纷寻求避险。风险投资公司现在要求AI初创公司提供其训练数据的详细来源证明。像Cohere和AI21 Labs这样的公司,