AI创作还是大规模剽窃？一场可能重塑行业的原创性清算

从ChatGPT这样的文本助手到Midjourney这样的图像生成器，生成式AI的繁荣建立在一个摇摇欲坠的基础上：数十亿个从公共互联网抓取的数据点，往往未经原始创作者的明确同意。这引发了一场激烈的辩论：这些模型究竟是在真正创作，还是以前所未有的规模简单混搭人类作品？近期来自艺术家、作家和新闻出版商的诉讼，凸显了一种深刻的伦理与经济失衡：为AI模型提供“智能”的人得不到任何补偿，而公司却将输出成果商业化。核心技术问题在于训练过程本身——一种自动化的、大规模的复制行为，从根本上挑战了原创性的概念。没有透明的数据溯源，整个行业就建立在流沙之上。

技术深度解析

AI与剽窃之争并非哲学上的抽象概念——它已深深嵌入每一个主流生成式模型的架构之中。问题的核心在于大语言模型（LLM）和扩散模型的训练过程。这些系统在从网络抓取的庞大语料库上训练，包括受版权保护的书籍、新闻文章、个人博客和艺术作品集。模型并非像人类一样“阅读”或“理解”；它学习的是token共现的统计模式。当用户提示LLM以某位在世诗人的风格写一首诗时，模型本质上是在从该诗人作品的数百万个示例中进行插值，通常没有署名或补偿。

从技术角度看，“记忆”与“泛化”的过程是关键的战场。研究人员已经证明，LLM能够记忆并逐字重现训练数据中的段落——这种现象被称为“数据反刍”。2023年，谷歌与多所大学的研究人员合作进行的一项研究发现，像GPT-2这样的模型可以被提示输出训练集中的特定个人信息和受版权保护的文本。这不是一个缺陷；这是模型存储高频模式能力的一个特征。模型越大，它记忆的内容就越多。例如，Pythia扩展套件（EleutherAI的开源项目，在GitHub上拥有超过12,000颗星）显示，当模型从70M参数扩展到12B参数时，记忆率呈非线性增长。这意味着最强大的商业模型——拥有数千亿参数——最有可能侵犯受版权保护的材料。

用于图像生成的扩散模型面临类似的挑战。像Stable Diffusion（Stability AI的开源模型，在GitHub上拥有超过50,000颗星）这样的工具是在LAION-5B数据集上训练的，该数据集包含数十亿张从网络抓取的图像，包括受版权保护的艺术品。研究人员已经证明，这些模型可以重现训练图像的近乎精确的副本，尤其是当该图像在数据集中出现多次时（例如，《蒙娜丽莎》或一张热门电影海报）。“反演”技术允许用户提取特定的训练示例，证明模型不仅在学习风格，还在存储压缩副本。

| 模型 | 参数规模 | 训练数据大小 | 记忆率（逐字50-token序列） | 版权诉讼状态 |
|---|---|---|---|---|
| GPT-4 (OpenAI) | ~1.8T (估计) | ~13T tokens | ~1.2% (估计) | 多起正在进行中（作家、纽约时报） |
| Claude 3.5 Sonnet (Anthropic) | ~200B (估计) | ~10T tokens | ~0.8% (估计) | 作者于2024年提起诉讼 |
| Llama 3 70B (Meta) | 70B | ~15T tokens | ~1.5% (估计) | 作者于2024年提起诉讼 |
| Stable Diffusion 3 (Stability AI) | 8B | ~2B 图像 | ~0.5% (图像复制) | Getty Images、艺术家提起诉讼 |
| DALL-E 3 (OpenAI) | ~12B (估计) | ~1B 图像 | ~0.3% (图像复制) | 艺术家提起集体诉讼 |

数据要点： 记忆率虽然绝对值较低，但考虑到训练数据的规模，仍然意义重大。对于一个在13万亿个token上训练的模型来说，1%的记忆率意味着1300亿个token——相当于大约10万本书——可以被逐字重现。这不是一个边缘问题；这是该技术的一个结构性属性。

开源社区已经通过开发检测和缓解工具来应对。'CopyrightGPT'仓库（GitHub，约3,000颗星）提供了一种通过检查受版权保护的n-gram来过滤训练数据的方法。另一个项目'DataComp'（GitHub，约4,000颗星）提供了一个评估数据策展策略（包括版权过滤）的基准。然而，这些都是事后补救。根本问题依然存在：当前的训练流程将整个公共互联网视为免费资源，而侵权的举证责任落在了创作者身上，而非模型开发者。

要点： 生成式AI的技术架构天生倾向于剽窃。该行业必须要么重新设计训练流程，默认排除受版权保护的数据（一项巨大的工程挑战），要么在模型输出层建立补偿机制。两者都不容易，但忽视问题已不再可行。

关键参与者与案例研究

围绕AI原创性的法律与伦理之战正在多条战线上展开，关键参与者从个体艺术家到跨国公司不等。

原告方： 最引人注目的案件包括：
- 作家： 乔治·R·R·马丁、约翰·格里森姆和朱迪·皮考特是对OpenAI提起集体诉讼的原告之一，指控他们的受版权保护的书籍在未经许可的情况下被用于训练GPT模型。美国作家协会一直是背后的推动力量，代表了数千名作家。
- 艺术家： 由艺术家主导的对Stability AI、Midjourney和DeviantArt提起的集体诉讼

时间归档

延伸阅读

常见问题

这次模型发布“AI Creation or Mass Plagiarism? The Originality Reckoning That Could Reshape the Industry”的核心内容是什么？

The generative AI boom—from text assistants like ChatGPT to image generators like Midjourney—rests on a precarious foundation: billions of data points scraped from the public inter…

从“Is AI art plagiarism or fair use?”看，这个模型发布为什么重要？

The controversy over AI and plagiarism is not a philosophical abstraction—it is baked into the architecture of every major generative model. At the heart of the issue is the training process for large language models (LL…

围绕“How to check if my artwork was used to train AI”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。