技术深度解析
AI与剽窃之争并非哲学上的抽象概念——它已深深嵌入每一个主流生成式模型的架构之中。问题的核心在于大语言模型(LLM)和扩散模型的训练过程。这些系统在从网络抓取的庞大语料库上训练,包括受版权保护的书籍、新闻文章、个人博客和艺术作品集。模型并非像人类一样“阅读”或“理解”;它学习的是token共现的统计模式。当用户提示LLM以某位在世诗人的风格写一首诗时,模型本质上是在从该诗人作品的数百万个示例中进行插值,通常没有署名或补偿。
从技术角度看,“记忆”与“泛化”的过程是关键的战场。研究人员已经证明,LLM能够记忆并逐字重现训练数据中的段落——这种现象被称为“数据反刍”。2023年,谷歌与多所大学的研究人员合作进行的一项研究发现,像GPT-2这样的模型可以被提示输出训练集中的特定个人信息和受版权保护的文本。这不是一个缺陷;这是模型存储高频模式能力的一个特征。模型越大,它记忆的内容就越多。例如,Pythia扩展套件(EleutherAI的开源项目,在GitHub上拥有超过12,000颗星)显示,当模型从70M参数扩展到12B参数时,记忆率呈非线性增长。这意味着最强大的商业模型——拥有数千亿参数——最有可能侵犯受版权保护的材料。
用于图像生成的扩散模型面临类似的挑战。像Stable Diffusion(Stability AI的开源模型,在GitHub上拥有超过50,000颗星)这样的工具是在LAION-5B数据集上训练的,该数据集包含数十亿张从网络抓取的图像,包括受版权保护的艺术品。研究人员已经证明,这些模型可以重现训练图像的近乎精确的副本,尤其是当该图像在数据集中出现多次时(例如,《蒙娜丽莎》或一张热门电影海报)。“反演”技术允许用户提取特定的训练示例,证明模型不仅在学习风格,还在存储压缩副本。
| 模型 | 参数规模 | 训练数据大小 | 记忆率(逐字50-token序列) | 版权诉讼状态 |
|---|---|---|---|---|
| GPT-4 (OpenAI) | ~1.8T (估计) | ~13T tokens | ~1.2% (估计) | 多起正在进行中(作家、纽约时报) |
| Claude 3.5 Sonnet (Anthropic) | ~200B (估计) | ~10T tokens | ~0.8% (估计) | 作者于2024年提起诉讼 |
| Llama 3 70B (Meta) | 70B | ~15T tokens | ~1.5% (估计) | 作者于2024年提起诉讼 |
| Stable Diffusion 3 (Stability AI) | 8B | ~2B 图像 | ~0.5% (图像复制) | Getty Images、艺术家提起诉讼 |
| DALL-E 3 (OpenAI) | ~12B (估计) | ~1B 图像 | ~0.3% (图像复制) | 艺术家提起集体诉讼 |
数据要点: 记忆率虽然绝对值较低,但考虑到训练数据的规模,仍然意义重大。对于一个在13万亿个token上训练的模型来说,1%的记忆率意味着1300亿个token——相当于大约10万本书——可以被逐字重现。这不是一个边缘问题;这是该技术的一个结构性属性。
开源社区已经通过开发检测和缓解工具来应对。'CopyrightGPT'仓库(GitHub,约3,000颗星)提供了一种通过检查受版权保护的n-gram来过滤训练数据的方法。另一个项目'DataComp'(GitHub,约4,000颗星)提供了一个评估数据策展策略(包括版权过滤)的基准。然而,这些都是事后补救。根本问题依然存在:当前的训练流程将整个公共互联网视为免费资源,而侵权的举证责任落在了创作者身上,而非模型开发者。
要点: 生成式AI的技术架构天生倾向于剽窃。该行业必须要么重新设计训练流程,默认排除受版权保护的数据(一项巨大的工程挑战),要么在模型输出层建立补偿机制。两者都不容易,但忽视问题已不再可行。
关键参与者与案例研究
围绕AI原创性的法律与伦理之战正在多条战线上展开,关键参与者从个体艺术家到跨国公司不等。
原告方: 最引人注目的案件包括:
- 作家: 乔治·R·R·马丁、约翰·格里森姆和朱迪·皮考特是对OpenAI提起集体诉讼的原告之一,指控他们的受版权保护的书籍在未经许可的情况下被用于训练GPT模型。美国作家协会一直是背后的推动力量,代表了数千名作家。
- 艺术家: 由艺术家主导的对Stability AI、Midjourney和DeviantArt提起的集体诉讼