CreativityBench曝光AI致命短板：无法跳出思维定式

AI社区长期以来在逻辑推理、代码生成和环境交互方面取得了显著进展。但一项名为CreativityBench的新评估框架给出了一个清醒的现实检验：当前的大语言模型在横向思维方面表现极差。该基准测试考验智能体以非常规方式重新利用日常物品的能力——例如，用鞋子钉钉子，或用围巾捆绑包裹。结果显示，GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro等模型在这些任务上的准确率低于30%，而人类的表现超过85%。这并非一个微不足道的边缘案例；它直击智能的核心。CreativityBench衡量的是“功能可供性推理”——即根据物体的物理属性推断其潜在用途的能力。

技术深度解析

CreativityBench并非又一个普通基准测试；它是一场针对长期被忽视的认知能力的定向压力测试：基于功能可供性的创造性工具使用。术语“功能可供性”（affordance）由心理学家James J. Gibson提出，指物体向智能体提供的行动可能性。一把椅子可供就坐，但也可供站立、堵门，甚至在被拆解后充当木制杠杆。当前的大语言模型被训练将物体映射到其规范功能——锤子用于敲击，鞋子用于穿着。CreativityBench迫使模型打破这种映射。

该基准测试包含500个任务，每个任务向智能体提出一个目标（例如，“将钉子钉入墙壁”）并提供一组不包含常规工具（锤子）的物体。智能体必须选择一个替代物体（例如，鞋子、石头、厚书）并描述如何使用它。评估分为两部分：（1）物体选择准确率——模型是否选择了物理上合理的替代品？（2）使用描述质量——模型的解释是否正确利用了物体的功能可供性（例如，“利用鞋子的硬鞋跟作为敲击面”）。

结果令人震惊。下表展示了各领先模型在物体选择任务上的表现：

| 模型 | 物体选择准确率 | 使用描述质量（BERTScore F1） |
|---|---|---|
| GPT-4o | 28.4% | 0.61 |
| Claude 3.5 Sonnet | 26.1% | 0.58 |
| Gemini 1.5 Pro | 24.7% | 0.55 |
| Llama 3.1 405B | 22.3% | 0.52 |
| 人类（基线） | 87.2% | 0.91 |

数据要点： AI与人类表现之间的差距并非渐进式的——而是一条鸿沟。即使是最好的模型，在选择创造性工具方面也比人类差三倍以上。这表明当前架构缺乏基本的推理机制。

模型为何失败？根源在于物体的静态属性编码。在典型的Transformer中，像“鞋子”这样的物体由一个token嵌入表示，该嵌入聚合了训练数据中的所有上下文。这个嵌入是“ footwear”、“leather”、“sole”、“lace”等概念的混合体，但它并未显式编码硬度（邵氏硬度）、密度（kg/m³）或摩擦系数等物理属性。当被要求将鞋子用作锤子时，模型无法动态计算鞋跟是否足够坚硬以传递力。相反，它检索出最频繁的统计使用模式——“穿在脚上”——并拒绝替代方案。

为解决这一问题，研究人员正在探索动态属性推理层。MIT CSAIL近期一篇预印本（尚未在GitHub上发布，但与“PropertyNet”项目相关）中详细介绍了一种有前景的方法，提出了一种两阶段架构：首先，视觉语言模型从物体图像中提取物理属性（例如，“这只鞋子有橡胶鞋底、皮革鞋面和硬塑料鞋跟”）；其次，推理模块利用这些属性模拟该工具对给定任务的有效性。GitHub仓库“affordance-net”（1.2k星）为机器人抓取实现了类似思路，使用图神经网络从点云预测抓取功能可供性。然而，它尚未扩展到创造性工具使用。

另一个相关的开源项目是“ToolEmu”（2.8k星），它在虚拟环境中模拟工具使用，但专注于常规工具使用，而非创造性重新利用。CreativityBench团队已在GitHub上发布了一个小型评估套件（仓库：“creativity-bench”，450星），允许研究人员测试自己的模型。

技术要点： 前进的道路需要将物体身份与物理属性解耦。模型必须学习一种组合式表征，其中“硬度”、“形状”和“重量”是独立的潜在变量，可以针对新任务重新组合。这是一个与下一个词元预测根本不同的学习目标。

关键参与者与案例研究

多个组织已在应对这一挑战，尽管没有一家完全解决。

Google DeepMind 通过其“Socratic models”和“SayCan”工作，一直是功能可供性推理的领导者。SayCan是一个将语言模型与技能库相结合的机器人系统，能够理解“给我拿杯饮料”这样的指令，但当被要求“用书撑开门”时却会失败，因为“用书撑门”这一技能不在其库中。DeepMind的最新研究“AffordanceGPT”试图通过查询物理模拟器即时生成新技能，但在实时使用中仍计算成本高昂且速度缓慢。

MIT CSAIL（Pulkit Agrawal教授团队）开发了“PropertyNet”，这是一个从单张图像预测物理属性（质量、摩擦力、弹性）的神经网络。当与规划器集成时，它可以建议创造性工具使用——例如，用煎锅当锤子。然而，该系统仍处于实验室阶段，尚未部署到物理机器人上。

OpenAI

时间归档

延伸阅读

常见问题

这次模型发布“CreativityBench Exposes AI's Hidden Flaw: Can't Think Outside the Box”的核心内容是什么？

The AI community has long celebrated progress in logic, code generation, and environmental interaction. But a new evaluation framework, CreativityBench, delivers a sobering reality…

从“How to improve AI creative tool use”看，这个模型发布为什么重要？

CreativityBench is not just another benchmark; it is a targeted stress test for a cognitive capability that has been largely ignored: affordance-based creative tool use. The term 'affordance,' coined by psychologist Jame…

围绕“Affordance reasoning vs pattern matching”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。