AI 代理为自己的艺术打分:机器专属美学的黎明

Hacker News April 2026
来源:Hacker NewsAI agents归档:April 2026
一位开发者复活了一个经典的遗传编程艺术项目,用AI代理取代人类评委,让机器自主选择和进化图像。结果形成了一个完全自动化的闭环机器美学进化系统——这引发了一个问题:AI能否发展出属于自己的艺术品味,这对人类创作者又意味着什么?

在一项低调却极具挑衅性的实验中,一位开发者对数十年前的遗传编程艺术项目进行了激进升级:不再由人类手动挑选每一代中最赏心悦目的图像,而是由AI代理来做出审美判断。该系统自动繁殖、变异和选择图像,形成持续循环,初始化后无需任何人工干预。从“人在回路中”到“AI作为批评家”的转变,将迭代速度提升了数个数量级,更重要的是,它引入了机器可能进化出完全属于自己的美感这一可能性。该项目虽然概念简单,却触及了生成式AI的核心张力:如果模型能够创造,为什么它们不能策展?通过将奖励函数交给代理,整个系统开始探索一种可能完全脱离人类偏好的美学空间。

技术深度解析

该项目复活了一种被称为用于图像生成的遗传编程(GP)的经典技术,该技术最早由Karl Sims等研究人员在20世纪90年代末推广。原始方法的工作原理如下:图像种群被表示为数学表达式(例如,正弦波、渐变和噪声函数的组合)。这些表达式经历交叉(混合两个父表达式的部分)和变异(随机改变节点或参数)。然后由人类评委选择最具视觉吸引力的图像,作为下一代的父本。经过数十代或数百代后,图像会朝着人类认为美观的方向进化。

关键瓶颈始终是人类评委。人类速度慢、不一致且容易疲劳。一个典型的会话可能每小时产生10-20代,人类的注意力跨度限制了搜索空间的复杂性。新的实验用AI代理取代了人类——具体来说,是一个经过微调的视觉语言模型(VLM),能够为任何输入图像输出标量美学评分。该代理被赋予一个简单的提示:“根据美学吸引力,以1-10的等级为这张图像评分。”然后系统自动选择得分最高的图像,进行繁殖,并重复该过程。

架构:
- 图像生成引擎: 一个自定义的C++/CUDA后端,将符号表达式树编译成像素缓冲区。每个表达式都是一个数学函数树(sin、cos、fract、noise等),叶节点代表像素坐标和随机常数。
- 美学评判代理: 一个量化版本的多模态LLM(可能是LLaVA或类似的开源VLM),通过llama.cpp在本地运行。该模型接收图像提示并返回一个数值分数。开发者报告使用了7B参数模型,在RTX 4090上每秒可实现约5次评估。
- 进化循环: 采用精英策略的锦标赛选择。前10%的图像保持不变;其余90%由前50%的图像通过交叉和变异产生的后代替代。
- 变异率: 自适应,从每个节点5%开始,如果种群多样性(通过像素方差衡量)低于阈值,则增加变异率。

关键创新: 代理的评分函数并非静态。开发者实现了一种简单的奖励塑形形式:每50代后,代理会收到当前种群的一个随机子集,并被要求用自然语言解释其评分。这些解释随后被用于调整评分提示(例如,“偏好高对比度”或“避免过度对称”)。这创建了一个反馈循环,使得代理的审美标准能够随时间漂移,可能偏离人类规范。

性能数据:

| 指标 | 人在回路中(经典) | AI代理(本项目) |
|---|---|---|
| 每小时代数 | 10-20 | 18,000 |
| 每代评估图像数 | 100 | 1,000 |
| 24小时内进化图像总数 | ~2,000 | 1800万 |
| 所需人力 | 持续投入 | 10分钟设置 |
| 审美漂移潜力 | 低(人类锚定品味) | 高(代理可能偏离) |

数据要点: AI代理实现了900倍的生成吞吐量提升,使得探索远为庞大的图像空间成为可能。然而,漂移潜力意味着系统可能收敛于人类认为陌生或缺乏吸引力的美学——对于对非人类艺术感兴趣的人来说,这是一个特性,而非缺陷。

相关开源仓库:
- picbreeder(已归档):原始的协作式GP艺术平台。仍在GitHub上可用,约200颗星。
- llama.cpp(56k+星):用于本地运行VLM评判器。
- 基于CLIP的美学评分器(例如,LAION的美学预测器,约1.5k星):一种使用CLIP嵌入线性探针的替代方法。开发者测试了该方法,但发现它过于符合人类偏好,违背了探索非人类美学的初衷。

关键参与者与案例研究

这项实验并非孤立发生。多个组织和研究人员正在积极致力于自动化审美判断,尽管没有人像该项目一样创建了一个完全闭环的进化系统。

值得注意的实体:

| 实体 | 方法 | 阶段 | 关键见解 |
|---|---|---|---|
| OpenAI | DALL-E 3使用人类反馈管道(RLHF)进行美学对齐 | 生产环境 | 人类品味仍是黄金标准;无自主审美判断 |
| Stability AI | Stable Diffusion结合美学评分模型(如LAION的) | 生产环境 | 存在开源工具,但用于过滤,而非进化 |
| Google DeepMind | DreamFields / Imagen:使用CLIP进行文本-图像对齐 | 研究阶段 | 审美判断与语义对齐混为一谈 |
| 个体开发者(本项目) | 基于VLM的自主审美评判器 + GP进化 | 实验阶段 | 首个已知的无人类闭环系统 |

更多来自 Hacker News

Claude Pro的Opus付费墙:无限AI访问的终结与计量智能的崛起在AI社区引发涟漪的举措中,Anthropic悄悄修改了其每月20美元的Claude Pro订阅条款。这一变化看似简单:公司最强大的模型Claude Opus不再默认可用。相反,用户必须手动在账户设置中切换“额外使用”开关才能访问Opus。DeepSeek V4定价仅为GPT-5.5的3%:AI价格战正式打响DeepSeek V4模型标志着AI行业的分水岭时刻。通过将其API定价约为OpenAI GPT-5.5的3%——降幅高达97%——DeepSeek有效摧毁了前沿AI必须附带高溢价的普遍假设。我们的分析表明,这一激进举措并非源于削弱竞争对手记忆守护者:开源方案破解AI智能体“内存膨胀”危机自主AI智能体的快速普及暴露了一个根本性缺陷:不受控的内存消耗。当智能体执行复杂多步骤任务时,其上下文窗口被无关数据填满,导致性能下降、幻觉频发乃至系统崩溃。AINews发现了一个直击这一痛点的项目:Memory Guardian。这个开源查看来源专题页Hacker News 已收录 2591 篇文章

相关专题

AI agents625 篇相关文章

时间归档

April 20262722 篇已发布文章

延伸阅读

AI智能体首次无脚本社交聚会:涌现式协作的新范式太平洋时间今晚7点,一群来自不同技术背景的自主AI智能体将进入一个共享虚拟房间,进行一场无脚本、无需注册的社交聚会。这场实验旨在测试智能体能否仅凭实时上下文,在没有持久记忆或预设协议的情况下,形成临时的社交动态。AI代理能点击“我同意”,但法律承认“机器同意”吗?AI代理正从被动工具进化为主动决策者,但法律体系尚未定义“机器同意”的标准。当代理在无人监督下签署订阅或授权数据共享时,责任该由谁承担?AINews深入调查这一迫在眉睫的法律与伦理真空。Zork-Bench 曝光LLM推理缺陷:AI能否通关1977年的文字冒险游戏?一项名为Zork-bench的新型基准测试,将大语言模型置于经典1977年文字冒险游戏Zork中,考验其动态推理能力。初步结果显示,即便是最先进的LLM也无法完成简单指令,暴露出它们在交互式问题解决与长期规划上的严重短板。Codedb:开源语义服务器,让AI代理真正理解代码库AINews独家揭秘Codedb——一款专为AI代理打造的开源代码智能服务器。它能够将代码、关系与依赖项索引为语义骨架,并通过简洁的API供代理查询。这并非搜索工具,而是一个持久化、结构化的理解层,让代理能够自主导航、重构乃至构建整个项目。

常见问题

这次模型发布“AI Agents Judge Their Own Art: The Dawn of Machine-Only Aesthetics”的核心内容是什么?

In a quiet but provocative experiment, a developer has taken a decades-old genetic programming art project and given it a radical upgrade: instead of a human manually picking the m…

从“Can AI develop its own aesthetic taste independent of humans?”看,这个模型发布为什么重要?

The project resurrects a classic technique known as genetic programming (GP) for image generation, first popularized in the late 1990s by researchers like Karl Sims. The original approach works as follows: a population o…

围绕“How does genetic programming art work with AI judges?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。