技术深度解析
该研究的架构将大型视觉语言模型(VLM)与进化算法结合,形成一个反馈循环,旨在模仿Picbreeder的人机协作流程。在原始Picbreeder中,用户浏览不断进化的图像群体,选择那些他们认为美观或有趣的图像,这些选择成为下一代的“父母”。AI复刻版则用VLM本身取代了人类选择者,要求它基于训练分布判断哪些图像是“新颖”或“有趣”的。
核心架构:
1. 初始化: 使用潜在扩散模型(如Stable Diffusion变体)生成随机图像群体。
2. 评估: VLM(经过微调的CLIP或类似GPT-4V的模型)根据图像与当前群体在VLM嵌入空间中的质心距离,为每张图像打分,形成“新颖性”指标。
3. 选择: 得分最高的图像被选为“父母”。
4. 交叉与变异: 通过潜在空间插值和噪声注入,对“父母”图像进行重组和变异。
5. 迭代: 该过程重复数百代。
失败模式: VLM的“新颖性”指标存在根本缺陷。它衡量的是*统计*新颖性——图像与当前集合的差异程度——而非*语义*新颖性——图像在概念上令人惊讶或有意义的程度。这导致研究人员称之为“趋同漂移”的现象:群体迅速迁移到视觉复杂但语义空洞的模式(例如分形纹理、高频噪声),这些模式最大化统计距离指标,却未实现任何概念突破。
相关开源工作: 研究人员基于`evotorch`库(GitHub: `nnaisense/evotorch`,约1.2k星)构建,这是一个基于PyTorch的进化计算框架。他们还使用了`open-clip`仓库(GitHub: `mlfoundations/open_clip`,约9k星)作为VLM骨干。值得注意的是,社区一直在`pyribs`(GitHub: `icaros-usc/pyribs`,约1.5k星)中实验“新颖性搜索”算法,这是一个用于质量多样性和新颖性搜索的库,但这些算法尚未成功与大型VLM集成以实现开放式生成。
性能指标:
| 指标 | 人类引导的Picbreeder | VLM引导的复刻版 | 随机基线 |
|---|---|---|---|
| 发现的独特视觉概念(每1000代) | 47 | 12 | 3 |
| 人类评定的“有意义新颖性”(1-5分) | 4.2 | 1.8 | 1.1 |
| 图像类别多样性(如动物、物体、场景) | 23 | 5 | 2 |
| 收敛到稳定模式的代数 | 从未收敛 | 约150代 | 约50代 |
数据要点: VLM引导的系统发现的有意义概念仅为人类引导进化的四分之一,人类评估者认为其输出远不那么有趣。与人类引导的Picbreeder的开放式探索不同,该系统迅速收敛到一组狭窄的模式。
关键参与者与案例研究
该研究直接比较了三种开放式创造力方法,每种方法由不同的研究团队和产品代表:
1. 原始Picbreeder(2007-2010): 由Kenneth Stanley及其在中佛罗里达大学的同事开发,Picbreeder是进化艺术领域的里程碑。它证明了,借助人类的审美选择,一个简单的算法也能生成出奇复杂且美丽的图像——从宇宙飞船到人脸。关键洞察在于,人类的好奇心提供了“开放式”驱动力。
2. VLM复刻版(2025): 由来自MIT和DeepMind的团队领导,这项研究试图自动化人类的角色。团队成员包括Lili Chen博士(以好奇心驱动的强化学习研究闻名)和Joel Lehman博士(新颖性搜索算法的先驱)。他们的方法使用了经过微调的Google PaLI-3 VLM,该模型拥有550亿参数,并在海量图像-文本对数据集上训练。
3. 商业AI艺术工具(Midjourney、DALL-E 3、Stable Diffusion): 这些工具代表了当前AI图像生成的最先进水平。它们在根据文本提示生成美观、连贯的图像方面非常高效,但它们在根本上是*反应式*的——它们需要人类提示,不会自主探索。
创造力方法比较:
| 平台 | 自主性水平 | 新颖性类型 | 人类角色 | 输出多样性 |
|---|---|---|---|---|
| Picbreeder(人类) | 低(人类选择) | 语义性、令人惊讶 | 主动策展人 | 非常高 |
| VLM复刻版 | 中(VLM选择) | 统计性、浅层 | 被动观察者 | 中等(会收敛) |
| Midjourney v6 | 低(人类提示) | 受提示约束 | 主动导演 | 高(按提示) |
| DALL-E 3 | 低(人类提示) | 受提示约束 | 主动导演 | 高(按提示) |
| 新颖性搜索 + VLM(理论) | 高(算法选择) | 行为性、概念性 | 无 | 理论上高 |