技术深度解析
该项目复活了一种被称为用于图像生成的遗传编程(GP)的经典技术,该技术最早由Karl Sims等研究人员在20世纪90年代末推广。原始方法的工作原理如下:图像种群被表示为数学表达式(例如,正弦波、渐变和噪声函数的组合)。这些表达式经历交叉(混合两个父表达式的部分)和变异(随机改变节点或参数)。然后由人类评委选择最具视觉吸引力的图像,作为下一代的父本。经过数十代或数百代后,图像会朝着人类认为美观的方向进化。
关键瓶颈始终是人类评委。人类速度慢、不一致且容易疲劳。一个典型的会话可能每小时产生10-20代,人类的注意力跨度限制了搜索空间的复杂性。新的实验用AI代理取代了人类——具体来说,是一个经过微调的视觉语言模型(VLM),能够为任何输入图像输出标量美学评分。该代理被赋予一个简单的提示:“根据美学吸引力,以1-10的等级为这张图像评分。”然后系统自动选择得分最高的图像,进行繁殖,并重复该过程。
架构:
- 图像生成引擎: 一个自定义的C++/CUDA后端,将符号表达式树编译成像素缓冲区。每个表达式都是一个数学函数树(sin、cos、fract、noise等),叶节点代表像素坐标和随机常数。
- 美学评判代理: 一个量化版本的多模态LLM(可能是LLaVA或类似的开源VLM),通过llama.cpp在本地运行。该模型接收图像提示并返回一个数值分数。开发者报告使用了7B参数模型,在RTX 4090上每秒可实现约5次评估。
- 进化循环: 采用精英策略的锦标赛选择。前10%的图像保持不变;其余90%由前50%的图像通过交叉和变异产生的后代替代。
- 变异率: 自适应,从每个节点5%开始,如果种群多样性(通过像素方差衡量)低于阈值,则增加变异率。
关键创新: 代理的评分函数并非静态。开发者实现了一种简单的奖励塑形形式:每50代后,代理会收到当前种群的一个随机子集,并被要求用自然语言解释其评分。这些解释随后被用于调整评分提示(例如,“偏好高对比度”或“避免过度对称”)。这创建了一个反馈循环,使得代理的审美标准能够随时间漂移,可能偏离人类规范。
性能数据:
| 指标 | 人在回路中(经典) | AI代理(本项目) |
|---|---|---|
| 每小时代数 | 10-20 | 18,000 |
| 每代评估图像数 | 100 | 1,000 |
| 24小时内进化图像总数 | ~2,000 | 1800万 |
| 所需人力 | 持续投入 | 10分钟设置 |
| 审美漂移潜力 | 低(人类锚定品味) | 高(代理可能偏离) |
数据要点: AI代理实现了900倍的生成吞吐量提升,使得探索远为庞大的图像空间成为可能。然而,漂移潜力意味着系统可能收敛于人类认为陌生或缺乏吸引力的美学——对于对非人类艺术感兴趣的人来说,这是一个特性,而非缺陷。
相关开源仓库:
- picbreeder(已归档):原始的协作式GP艺术平台。仍在GitHub上可用,约200颗星。
- llama.cpp(56k+星):用于本地运行VLM评判器。
- 基于CLIP的美学评分器(例如,LAION的美学预测器,约1.5k星):一种使用CLIP嵌入线性探针的替代方法。开发者测试了该方法,但发现它过于符合人类偏好,违背了探索非人类美学的初衷。
关键参与者与案例研究
这项实验并非孤立发生。多个组织和研究人员正在积极致力于自动化审美判断,尽管没有人像该项目一样创建了一个完全闭环的进化系统。
值得注意的实体:
| 实体 | 方法 | 阶段 | 关键见解 |
|---|---|---|---|
| OpenAI | DALL-E 3使用人类反馈管道(RLHF)进行美学对齐 | 生产环境 | 人类品味仍是黄金标准;无自主审美判断 |
| Stability AI | Stable Diffusion结合美学评分模型(如LAION的) | 生产环境 | 存在开源工具,但用于过滤,而非进化 |
| Google DeepMind | DreamFields / Imagen:使用CLIP进行文本-图像对齐 | 研究阶段 | 审美判断与语义对齐混为一谈 |
| 个体开发者(本项目) | 基于VLM的自主审美评判器 + GP进化 | 实验阶段 | 首个已知的无人类闭环系统 |