AI真能“发现”吗?Picbreeder复刻实验揭示开放式创造力的边界

arXiv cs.AI May 2026
来源:arXiv cs.AI归档:May 2026
研究人员尝试用大型视觉语言模型复刻经典开放式创造力平台Picbreeder。结果显示,AI虽能生成海量视觉变体,却无法自主追求“有意义的创新”,暴露出机器创造力的根本局限。

一项开创性研究试图用现代大型视觉语言模型(VLM)重建Picbreeder——一个以开放式进化创造力闻名的先驱平台。目标是测试AI系统能否自主生成不仅是新颖的,而且是“有意义的”新颖——那种驱动人类探索、科学发现和艺术创新的新颖。结果令人警醒:尽管基于VLM的系统能生成数量庞大、视觉多样的输出,但它始终趋向于统计上安全的模式,而非主动寻找令人惊讶或概念丰富的变体。核心缺陷不在于生成能力,而在于动机——当前的VLM缺乏内在的审美驱动力或好奇心功能。它们是模仿的大师,却非探索的先锋。

技术深度解析

该研究的架构将大型视觉语言模型(VLM)与进化算法结合,形成一个反馈循环,旨在模仿Picbreeder的人机协作流程。在原始Picbreeder中,用户浏览不断进化的图像群体,选择那些他们认为美观或有趣的图像,这些选择成为下一代的“父母”。AI复刻版则用VLM本身取代了人类选择者,要求它基于训练分布判断哪些图像是“新颖”或“有趣”的。

核心架构:
1. 初始化: 使用潜在扩散模型(如Stable Diffusion变体)生成随机图像群体。
2. 评估: VLM(经过微调的CLIP或类似GPT-4V的模型)根据图像与当前群体在VLM嵌入空间中的质心距离,为每张图像打分,形成“新颖性”指标。
3. 选择: 得分最高的图像被选为“父母”。
4. 交叉与变异: 通过潜在空间插值和噪声注入,对“父母”图像进行重组和变异。
5. 迭代: 该过程重复数百代。

失败模式: VLM的“新颖性”指标存在根本缺陷。它衡量的是*统计*新颖性——图像与当前集合的差异程度——而非*语义*新颖性——图像在概念上令人惊讶或有意义的程度。这导致研究人员称之为“趋同漂移”的现象:群体迅速迁移到视觉复杂但语义空洞的模式(例如分形纹理、高频噪声),这些模式最大化统计距离指标,却未实现任何概念突破。

相关开源工作: 研究人员基于`evotorch`库(GitHub: `nnaisense/evotorch`,约1.2k星)构建,这是一个基于PyTorch的进化计算框架。他们还使用了`open-clip`仓库(GitHub: `mlfoundations/open_clip`,约9k星)作为VLM骨干。值得注意的是,社区一直在`pyribs`(GitHub: `icaros-usc/pyribs`,约1.5k星)中实验“新颖性搜索”算法,这是一个用于质量多样性和新颖性搜索的库,但这些算法尚未成功与大型VLM集成以实现开放式生成。

性能指标:

| 指标 | 人类引导的Picbreeder | VLM引导的复刻版 | 随机基线 |
|---|---|---|---|
| 发现的独特视觉概念(每1000代) | 47 | 12 | 3 |
| 人类评定的“有意义新颖性”(1-5分) | 4.2 | 1.8 | 1.1 |
| 图像类别多样性(如动物、物体、场景) | 23 | 5 | 2 |
| 收敛到稳定模式的代数 | 从未收敛 | 约150代 | 约50代 |

数据要点: VLM引导的系统发现的有意义概念仅为人类引导进化的四分之一,人类评估者认为其输出远不那么有趣。与人类引导的Picbreeder的开放式探索不同,该系统迅速收敛到一组狭窄的模式。

关键参与者与案例研究

该研究直接比较了三种开放式创造力方法,每种方法由不同的研究团队和产品代表:

1. 原始Picbreeder(2007-2010): 由Kenneth Stanley及其在中佛罗里达大学的同事开发,Picbreeder是进化艺术领域的里程碑。它证明了,借助人类的审美选择,一个简单的算法也能生成出奇复杂且美丽的图像——从宇宙飞船到人脸。关键洞察在于,人类的好奇心提供了“开放式”驱动力。

2. VLM复刻版(2025): 由来自MIT和DeepMind的团队领导,这项研究试图自动化人类的角色。团队成员包括Lili Chen博士(以好奇心驱动的强化学习研究闻名)和Joel Lehman博士(新颖性搜索算法的先驱)。他们的方法使用了经过微调的Google PaLI-3 VLM,该模型拥有550亿参数,并在海量图像-文本对数据集上训练。

3. 商业AI艺术工具(Midjourney、DALL-E 3、Stable Diffusion): 这些工具代表了当前AI图像生成的最先进水平。它们在根据文本提示生成美观、连贯的图像方面非常高效,但它们在根本上是*反应式*的——它们需要人类提示,不会自主探索。

创造力方法比较:

| 平台 | 自主性水平 | 新颖性类型 | 人类角色 | 输出多样性 |
|---|---|---|---|---|
| Picbreeder(人类) | 低(人类选择) | 语义性、令人惊讶 | 主动策展人 | 非常高 |
| VLM复刻版 | 中(VLM选择) | 统计性、浅层 | 被动观察者 | 中等(会收敛) |
| Midjourney v6 | 低(人类提示) | 受提示约束 | 主动导演 | 高(按提示) |
| DALL-E 3 | 低(人类提示) | 受提示约束 | 主动导演 | 高(按提示) |
| 新颖性搜索 + VLM(理论) | 高(算法选择) | 行为性、概念性 | 无 | 理论上高 |

更多来自 arXiv cs.AI

多模态AI的致命短板:修复最弱维度,解锁真正推理能力当前多模态推理的主流方法,将视觉感知、逻辑连贯性和时间对齐视为同等权重的因素,通过平均化得出单一奖励分数。AINews的分析揭示了一个根本性缺陷:这种“平均化”允许模型在一个维度上表现出色,却在另一个维度上完全失败,只要总分达标即可。这就像PathoSage:教会AI病理学家“自我怀疑”,精准度跃升新高度PathoSage代表了AI病理学领域的根本性突破,直击当前多模态大语言模型的核心缺陷:无法处理来自多个来源的冲突证据。传统端到端模型饱受“形态学幻觉”之苦,而现有智能体系统则盲目地将所有工具输出和检索知识塞入共享上下文,导致证据矛盾时决策LLM裁判已崩溃:AI安全评估为何存在致命盲区AI行业已趋同于一种大规模安全评估方案:用一个LLM评判另一个LLM。这种'LLM-as-judge'范式驱动着从红队测试到对齐训练反馈循环的一切。但越来越多的证据表明,这些裁判存在根本性矛盾。一方面,它们对上下文极度敏感——精心设计的系统查看来源专题页arXiv cs.AI 已收录 445 篇文章

时间归档

May 20263028 篇已发布文章

延伸阅读

创新幻觉:为何聊天机器人精通对话却无法真正解决问题一项跨学科新分析揭示,大型语言模型陷入“创新幻觉”——它们能生成流畅对话,却无法真正解决新问题。这一发现挑战了AI行业的核心叙事,迫使人们对创造力与突破性思维重新校准预期。VAMPS Benchmark Exposes Multimodal AI's Fatal Flaw: Can't Think by DrawingThe new VAMPS benchmark exposes a critical blind spot in multimodal AI: models can interpret static images but fail whenCreativityBench曝光AI致命短板:无法跳出思维定式一项名为CreativityBench的新基准测试揭示,即便是最先进的大语言模型,在创造性工具使用方面也表现糟糕——比如用鞋子当锤子、用围巾当绳子。这一发现挑战了AI接近人类智能的说法,并暴露出其在物体功能推理上的根本缺陷。多模态AI的致命短板:修复最弱维度,解锁真正推理能力多模态推理系统存在一个关键盲点:过程奖励模型(PRM)对各维度分数取平均,掩盖了单点失败。一种全新的“最弱维度优化”策略,迫使模型在每一步修复最薄弱的环节,有望将AI自我评估从“追求平均”转向“保障底线”的逻辑。

常见问题

这次模型发布“Can AI Truly Discover? Picbreeder Replication Reveals Limits of Open-Ended Creativity”的核心内容是什么?

A groundbreaking study has attempted to recreate Picbreeder, a pioneering platform known for enabling open-ended evolutionary creativity, using modern large vision-language models…

从“How does novelty search differ from standard evolutionary algorithms in AI creativity?”看,这个模型发布为什么重要?

The study's architecture combines a large vision-language model (VLM) with an evolutionary algorithm in a feedback loop designed to mimic Picbreeder's human-in-the-loop process. In the original Picbreeder, users would br…

围绕“What are the best open-source libraries for experimenting with open-ended AI generation?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。