技术深度解析
人类创造力基准测试在架构上与传统AI评估套件截然不同。大多数现有基准——如MMLU、HellaSwag、GSM8K——测试的是知识回忆、封闭领域内的推理或针对精选答案集的模式匹配。它们奖励模型与人类标注的“标准答案”在统计上的接近程度。而这一新基准颠覆了范式:它衡量的是与预期的偏离。
其核心采用了一个三维评估框架:
1. 原创性评分:衡量模型输出与其训练分布中最具统计概率的延续之间的距离。这是通过一种自定义的基于熵的指标计算的,该指标将模型生成的token序列与同一提示下10,000条人类撰写回答的基线进行比较。高原创性意味着模型产出了大型语言模型通常不会预测的内容。
2. 语境约束遵循度:测试模型能否在任意、甚至矛盾的约束下运作。例如,一个提示可能要求写一首关于日落的诗,但只能使用以'S'开头的单词,并表达悲伤情绪,同时不得提及太阳。这评估了模型在自由与规则遵循之间取得平衡的能力——这是人类创造性解决问题的标志。
3. 概念突破指数:评估模型能否产生连接遥远语义领域的想法。一个典型任务是:“设计一个受树木如何分配养分启发的交通系统。”模型不仅要描述树木生理学,还要提出一个利用类似原理的新型机械系统。人类评委按1-5分对新颖性和可行性进行评分。
该基准的数据集包含5,000个提示,涵盖五个创意领域:视觉艺术、叙事写作、产品设计、科学假设生成和音乐创作。每个提示都配有来自专业创意人士(作家、设计师、科学家、音乐家)的多个人类基线回答。
对领先模型的初步测试结果颇具揭示性:
| 模型 | 原创性评分 (0-100) | 约束遵循度 (%) | 概念突破 (1-5) |
|---|---|---|---|
| GPT-4o | 34.2 | 71.3 | 2.1 |
| Claude 3.5 Sonnet | 38.7 | 68.9 | 2.4 |
| Gemini Ultra 1.0 | 31.5 | 65.2 | 1.9 |
| Llama 3 405B | 29.8 | 62.1 | 1.7 |
| 人类专业人士平均 | 72.4 | 89.5 | 4.1 |
数据要点:差距悬殊。即使是最佳模型,其原创性得分也仅为人类专业人士的一半左右。约束遵循度较为接近,但仍存在15-20个百分点的差距。概念突破的差距最为显著——模型很少能产生真正连接遥远领域的想法。这表明当前架构在认知科学家所称的“远程联想”能力上存在根本局限,而远程联想正是人类创造力的核心组成部分。
从工程角度来看,该基准揭示了Transformer架构的一个根本性局限。Transformer是自回归的:它们基于固定上下文窗口预测下一个token。这天生使其偏向于局部连贯但全局可预测的输出。基准的原创性指标专门惩罚那些局部连贯但全局缺乏原创性的输出——而这正是Transformer被优化以产生的结果。
开源项目已开始响应。GitHub上的Creative-AI-Eval仓库(近期已超过2,300颗星)提供了一个在本地运行该基准的工具包。它包含一个修改版的Hugging Face Transformers库,可在创意任务期间记录注意力模式,使研究人员能够可视化模型在何处“陷入”统计惯性。该仓库的早期分析显示,即使提示明确要求新颖性,模型也始终将最高注意力权重分配给训练数据中最常见的token序列。
关键参与者与案例研究
该基准的发布已引发主要AI实验室的战略性回应。OpenAI、Anthropic和Google DeepMind各自在内部承认了这些结果,尽管公开声明仍保持谨慎。
OpenAI 最为积极主动。其研究团队最近发表了一篇关于“发散解码”的预印本,该技术动态调整生成过程中的采样温度,以推动模型远离高概率token路径。早期内部测试显示原创性得分提高了12%,但代价是输出不连贯性增加了40%。这一权衡突显了一个核心矛盾:强行追求新颖性往往会破坏逻辑一致性。
Anthropic 则采取了不同方法,专注于“宪法性创造力”。他们的Claude模型通过一套“创意宪法”进行微调——这些规则明确鼓励概念融合。例如,其中一条宪法规定:“在生成解决方案时,首先列出三个不相关的领域,然后尝试将它们的原则结合起来。”早期结果显示,这种方法在概念突破指数上提升了0.3分,但代价是推理速度下降了18%。
Google DeepMind 正在探索一种混合方法,将符号规划器与神经网络生成器相结合。他们的系统首先使用类似AlphaGo的树搜索算法构建一个抽象的“创意草图”,然后由语言模型将其具体化。初步基准测试显示,这种方法在约束遵循度上表现优异(82.1%),但原创性得分仍然较低(33.4),表明符号组件在探索已知约束方面很有效,但在跳出框架思考方面仍显不足。
行业影响与未来方向
该基准的发布恰逢行业对AI“幻觉”问题反思的更深层次时刻。传统上,幻觉被视为一个需要消除的缺陷——模型在事实性任务中编造信息。但创造力基准提出了一个挑衅性的重新定义:在创造性任务中,受控的“幻觉”可能正是我们需要的。关键区别在于意图:幻觉是无意的错误,而创造力是有意的偏离。
这对产品开发有直接影响。依赖AI进行创意构思的公司——从广告文案到产品设计——现在有了一个框架来评估其工具的真正能力。早期采用者报告称,使用该基准来筛选AI生成的概念,将“可执行创意”的产出率提高了3倍,因为他们可以过滤掉那些只是重新包装常见模式的输出。
展望未来,该基准可能推动AI架构的新研究方向。一些实验室正在探索“非自回归”生成模型,这些模型可以同时考虑整个输出序列,而不是逐token生成。另一些实验室则致力于“记忆增强”模型,这些模型可以在推理时动态检索不相关的概念,模拟人类的远程联想能力。
然而,一个哲学问题依然存在:如果AI永远无法真正“理解”它正在创造的东西,那么它能否具有创造力?该基准的设计者认为,答案在于重新定义创造力本身——不是作为一种神秘的人类特质,而是作为在约束条件下产生新颖且有用输出的能力。从这个角度看,该基准不仅是对当前AI的评估,也是对未来AI的路线图。