技术深度解析
“AI即盗窃”的指控并非哲学抽象,它深深嵌入大型语言模型(LLM)和扩散模型的架构之中。核心机制是训练数据的摄取,其规模前所未有。GPT-4、Claude 3和Stable Diffusion 3等模型训练所用的数据集,规模超过10-15万亿个token(对于LLM)或数十亿个图像-文本对(对于视觉模型)。这些数据集通过爬取互联网构建——仅Common Crawl就包含超过2500亿个页面,其中绝大多数受版权保护。
“学习”与“记忆”之辨
行业的主要辩护理由是:模型“学习”的是模式,而非事实。从技术角度看,这对大多数输出成立,但在实践中,这一区分毫无意义。研究已反复证明,LLM确实能够且确实记住了训练数据中的大量内容。2023年,Google DeepMind与多所大学联合进行的一项研究表明,GPT-2可以被提示逐字逐句地复述书籍、新闻文章和代码库中的段落。模型在特定文本(例如一本畅销小说)上训练得越多,就越可能记住它。对于图像生成器,问题更为尖锐:Midjourney和Stable Diffusion等工具已被证明能够从其训练数据中复制受版权保护的角色、艺术风格甚至水印。开源社区已开发出诸如“Stable Diffusion Memorization Detector”(一个在GitHub上获得超过1200颗星的项目)之类的工具,能够从生成输出中识别出训练图像。
数据管道:一个黑箱
技术流程不透明。OpenAI和Anthropic等公司不公开其训练集的完整构成。已知的是,它们使用网络爬虫(例如OpenAI的GPTBot、Anthropic的ClaudeBot),网站运营商可以通过robots.txt阻止这些爬虫,但许多网站对此不知情或无法有效选择退出。数据随后经过过滤、去重和分词处理。关键在于,过滤过程旨在去除有毒内容,而非受版权保护的材料。目前没有可扩展的自动化方法来判断一段文本或一张图像是否受版权保护,以及其使用是否具有转化性。这是一个根本性的技术局限。
量化问题:记忆率基准
| 模型 | 训练数据规模(估计) | 逐字记忆率(基于测试提示) | 版权诉讼状态 |
|---|---|---|---|
| GPT-4 (OpenAI) | 约13万亿token | 约1-2%(来自《纽约时报》测试) | 进行中(《纽约时报》、作者协会) |
| Claude 3 (Anthropic) | 约10万亿token | <1%(自行报告) | 进行中(音乐出版商) |
| Llama 3 (Meta) | 约15万亿token | 约1.5%(独立研究) | 进行中(作者、喜剧演员) |
| Stable Diffusion 3 (Stability AI) | 约50亿张图像 | 约0.5-1%(视觉复制) | 进行中(Getty Images) |
数据要点: 尽管记忆率在百分比上较低,但绝对数量意味着数十亿次潜在的版权侵权。在一个10万亿token的数据集上,1%的记忆率意味着1000亿个token的潜在受版权保护内容可以被复现。法律风险不在于比率,而在于绝对规模。
GitHub生态系统
开发者正在积极构建反击工具。“Have I Been Trained”项目(GitHub,约3000颗星)允许创作者检查自己的图像是否被用于LAION-5B数据集。“Spawning”API(被超过5万名艺术家使用)帮助创作者选择退出AI训练。这些工具是对行业未能将同意机制嵌入数据管道的直接回应。技术挑战在于,选择退出是反应性的、碎片化的;目前没有关于训练数据来源的标准协议。
关键玩家与案例研究
法律与伦理之战正在多条战线展开,每家主要AI公司都面临独特的挑战。
OpenAI:风向标案件
OpenAI是最显眼的目标。《纽约时报》于2023年12月提起的诉讼最为重大,指控其数百万篇文章被用于训练GPT模型,而这些模型如今直接与新闻业竞争。《纽约时报》证明,GPT-4能够几乎逐字逐句地复述其文章段落,包括著名的“Snow Fall”专题报道。OpenAI的辩护基于合理使用原则,声称模型对作品进行了转化。此案的判决结果将为整个行业树立先例。在内部,OpenAI已承认问题,据报道正在探索数据许可协议,但其核心模型建立在未经许可的数据之上。
Anthropic:“负责任”的悖论
Anthropic将自己定位为道德替代方案,专注于安全性和“宪法AI”。然而,它正面临来自音乐出版商(环球音乐、Concord等)的集体诉讼,指控Claude是在受版权保护的歌词上训练的。这暴露了一个根本矛盾:在数据管道未经同意的情况下,你无法声称自己构建的是安全、道德的AI。