AI真能“发现”吗？Picbreeder复刻实验揭示开放式创造力的边界

一项开创性研究试图用现代大型视觉语言模型（VLM）重建Picbreeder——一个以开放式进化创造力闻名的先驱平台。目标是测试AI系统能否自主生成不仅是新颖的，而且是“有意义的”新颖——那种驱动人类探索、科学发现和艺术创新的新颖。结果令人警醒：尽管基于VLM的系统能生成数量庞大、视觉多样的输出，但它始终趋向于统计上安全的模式，而非主动寻找令人惊讶或概念丰富的变体。核心缺陷不在于生成能力，而在于动机——当前的VLM缺乏内在的审美驱动力或好奇心功能。它们是模仿的大师，却非探索的先锋。

技术深度解析

该研究的架构将大型视觉语言模型（VLM）与进化算法结合，形成一个反馈循环，旨在模仿Picbreeder的人机协作流程。在原始Picbreeder中，用户浏览不断进化的图像群体，选择那些他们认为美观或有趣的图像，这些选择成为下一代的“父母”。AI复刻版则用VLM本身取代了人类选择者，要求它基于训练分布判断哪些图像是“新颖”或“有趣”的。

核心架构：
1. 初始化： 使用潜在扩散模型（如Stable Diffusion变体）生成随机图像群体。
2. 评估： VLM（经过微调的CLIP或类似GPT-4V的模型）根据图像与当前群体在VLM嵌入空间中的质心距离，为每张图像打分，形成“新颖性”指标。
3. 选择： 得分最高的图像被选为“父母”。
4. 交叉与变异： 通过潜在空间插值和噪声注入，对“父母”图像进行重组和变异。
5. 迭代： 该过程重复数百代。

失败模式： VLM的“新颖性”指标存在根本缺陷。它衡量的是*统计*新颖性——图像与当前集合的差异程度——而非*语义*新颖性——图像在概念上令人惊讶或有意义的程度。这导致研究人员称之为“趋同漂移”的现象：群体迅速迁移到视觉复杂但语义空洞的模式（例如分形纹理、高频噪声），这些模式最大化统计距离指标，却未实现任何概念突破。

相关开源工作： 研究人员基于`evotorch`库（GitHub: `nnaisense/evotorch`，约1.2k星）构建，这是一个基于PyTorch的进化计算框架。他们还使用了`open-clip`仓库（GitHub: `mlfoundations/open_clip`，约9k星）作为VLM骨干。值得注意的是，社区一直在`pyribs`（GitHub: `icaros-usc/pyribs`，约1.5k星）中实验“新颖性搜索”算法，这是一个用于质量多样性和新颖性搜索的库，但这些算法尚未成功与大型VLM集成以实现开放式生成。

性能指标：

| 指标 | 人类引导的Picbreeder | VLM引导的复刻版 | 随机基线 |
|---|---|---|---|
| 发现的独特视觉概念（每1000代） | 47 | 12 | 3 |
| 人类评定的“有意义新颖性”（1-5分） | 4.2 | 1.8 | 1.1 |
| 图像类别多样性（如动物、物体、场景） | 23 | 5 | 2 |
| 收敛到稳定模式的代数 | 从未收敛 | 约150代 | 约50代 |

数据要点： VLM引导的系统发现的有意义概念仅为人类引导进化的四分之一，人类评估者认为其输出远不那么有趣。与人类引导的Picbreeder的开放式探索不同，该系统迅速收敛到一组狭窄的模式。

关键参与者与案例研究

该研究直接比较了三种开放式创造力方法，每种方法由不同的研究团队和产品代表：

1. 原始Picbreeder（2007-2010）： 由Kenneth Stanley及其在中佛罗里达大学的同事开发，Picbreeder是进化艺术领域的里程碑。它证明了，借助人类的审美选择，一个简单的算法也能生成出奇复杂且美丽的图像——从宇宙飞船到人脸。关键洞察在于，人类的好奇心提供了“开放式”驱动力。

2. VLM复刻版（2025）： 由来自MIT和DeepMind的团队领导，这项研究试图自动化人类的角色。团队成员包括Lili Chen博士（以好奇心驱动的强化学习研究闻名）和Joel Lehman博士（新颖性搜索算法的先驱）。他们的方法使用了经过微调的Google PaLI-3 VLM，该模型拥有550亿参数，并在海量图像-文本对数据集上训练。

3. 商业AI艺术工具（Midjourney、DALL-E 3、Stable Diffusion）： 这些工具代表了当前AI图像生成的最先进水平。它们在根据文本提示生成美观、连贯的图像方面非常高效，但它们在根本上是*反应式*的——它们需要人类提示，不会自主探索。

创造力方法比较：

| 平台 | 自主性水平 | 新颖性类型 | 人类角色 | 输出多样性 |
|---|---|---|---|---|
| Picbreeder（人类） | 低（人类选择） | 语义性、令人惊讶 | 主动策展人 | 非常高 |
| VLM复刻版 | 中（VLM选择） | 统计性、浅层 | 被动观察者 | 中等（会收敛） |
| Midjourney v6 | 低（人类提示） | 受提示约束 | 主动导演 | 高（按提示） |
| DALL-E 3 | 低（人类提示） | 受提示约束 | 主动导演 | 高（按提示） |
| 新颖性搜索 + VLM（理论） | 高（算法选择） | 行为性、概念性 | 无 | 理论上高 |

时间归档

延伸阅读

常见问题

这次模型发布“Can AI Truly Discover? Picbreeder Replication Reveals Limits of Open-Ended Creativity”的核心内容是什么？

A groundbreaking study has attempted to recreate Picbreeder, a pioneering platform known for enabling open-ended evolutionary creativity, using modern large vision-language models…

从“How does novelty search differ from standard evolutionary algorithms in AI creativity?”看，这个模型发布为什么重要？

The study's architecture combines a large vision-language model (VLM) with an evolutionary algorithm in a feedback loop designed to mimic Picbreeder's human-in-the-loop process. In the original Picbreeder, users would br…

围绕“What are the best open-source libraries for experimenting with open-ended AI generation?”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。