CreativityBench曝光AI致命短板:无法跳出思维定式

arXiv cs.AI May 2026
来源:arXiv cs.AIlarge language models归档:May 2026
一项名为CreativityBench的新基准测试揭示,即便是最先进的大语言模型,在创造性工具使用方面也表现糟糕——比如用鞋子当锤子、用围巾当绳子。这一发现挑战了AI接近人类智能的说法,并暴露出其在物体功能推理上的根本缺陷。

AI社区长期以来在逻辑推理、代码生成和环境交互方面取得了显著进展。但一项名为CreativityBench的新评估框架给出了一个清醒的现实检验:当前的大语言模型在横向思维方面表现极差。该基准测试考验智能体以非常规方式重新利用日常物品的能力——例如,用鞋子钉钉子,或用围巾捆绑包裹。结果显示,GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro等模型在这些任务上的准确率低于30%,而人类的表现超过85%。这并非一个微不足道的边缘案例;它直击智能的核心。CreativityBench衡量的是“功能可供性推理”——即根据物体的物理属性推断其潜在用途的能力。

技术深度解析

CreativityBench并非又一个普通基准测试;它是一场针对长期被忽视的认知能力的定向压力测试:基于功能可供性的创造性工具使用。术语“功能可供性”(affordance)由心理学家James J. Gibson提出,指物体向智能体提供的行动可能性。一把椅子可供就坐,但也可供站立、堵门,甚至在被拆解后充当木制杠杆。当前的大语言模型被训练将物体映射到其规范功能——锤子用于敲击,鞋子用于穿着。CreativityBench迫使模型打破这种映射。

该基准测试包含500个任务,每个任务向智能体提出一个目标(例如,“将钉子钉入墙壁”)并提供一组不包含常规工具(锤子)的物体。智能体必须选择一个替代物体(例如,鞋子、石头、厚书)并描述如何使用它。评估分为两部分:(1)物体选择准确率——模型是否选择了物理上合理的替代品?(2)使用描述质量——模型的解释是否正确利用了物体的功能可供性(例如,“利用鞋子的硬鞋跟作为敲击面”)。

结果令人震惊。下表展示了各领先模型在物体选择任务上的表现:

| 模型 | 物体选择准确率 | 使用描述质量(BERTScore F1) |
|---|---|---|
| GPT-4o | 28.4% | 0.61 |
| Claude 3.5 Sonnet | 26.1% | 0.58 |
| Gemini 1.5 Pro | 24.7% | 0.55 |
| Llama 3.1 405B | 22.3% | 0.52 |
| 人类(基线) | 87.2% | 0.91 |

数据要点: AI与人类表现之间的差距并非渐进式的——而是一条鸿沟。即使是最好的模型,在选择创造性工具方面也比人类差三倍以上。这表明当前架构缺乏基本的推理机制。

模型为何失败?根源在于物体的静态属性编码。在典型的Transformer中,像“鞋子”这样的物体由一个token嵌入表示,该嵌入聚合了训练数据中的所有上下文。这个嵌入是“ footwear”、“leather”、“sole”、“lace”等概念的混合体,但它并未显式编码硬度(邵氏硬度)、密度(kg/m³)或摩擦系数等物理属性。当被要求将鞋子用作锤子时,模型无法动态计算鞋跟是否足够坚硬以传递力。相反,它检索出最频繁的统计使用模式——“穿在脚上”——并拒绝替代方案。

为解决这一问题,研究人员正在探索动态属性推理层。MIT CSAIL近期一篇预印本(尚未在GitHub上发布,但与“PropertyNet”项目相关)中详细介绍了一种有前景的方法,提出了一种两阶段架构:首先,视觉语言模型从物体图像中提取物理属性(例如,“这只鞋子有橡胶鞋底、皮革鞋面和硬塑料鞋跟”);其次,推理模块利用这些属性模拟该工具对给定任务的有效性。GitHub仓库“affordance-net”(1.2k星)为机器人抓取实现了类似思路,使用图神经网络从点云预测抓取功能可供性。然而,它尚未扩展到创造性工具使用。

另一个相关的开源项目是“ToolEmu”(2.8k星),它在虚拟环境中模拟工具使用,但专注于常规工具使用,而非创造性重新利用。CreativityBench团队已在GitHub上发布了一个小型评估套件(仓库:“creativity-bench”,450星),允许研究人员测试自己的模型。

技术要点: 前进的道路需要将物体身份与物理属性解耦。模型必须学习一种组合式表征,其中“硬度”、“形状”和“重量”是独立的潜在变量,可以针对新任务重新组合。这是一个与下一个词元预测根本不同的学习目标。

关键参与者与案例研究

多个组织已在应对这一挑战,尽管没有一家完全解决。

Google DeepMind 通过其“Socratic models”和“SayCan”工作,一直是功能可供性推理的领导者。SayCan是一个将语言模型与技能库相结合的机器人系统,能够理解“给我拿杯饮料”这样的指令,但当被要求“用书撑开门”时却会失败,因为“用书撑门”这一技能不在其库中。DeepMind的最新研究“AffordanceGPT”试图通过查询物理模拟器即时生成新技能,但在实时使用中仍计算成本高昂且速度缓慢。

MIT CSAIL(Pulkit Agrawal教授团队)开发了“PropertyNet”,这是一个从单张图像预测物理属性(质量、摩擦力、弹性)的神经网络。当与规划器集成时,它可以建议创造性工具使用——例如,用煎锅当锤子。然而,该系统仍处于实验室阶段,尚未部署到物理机器人上。

OpenAI

更多来自 arXiv cs.AI

BrainG3N:破解3D脑部MRI生成中的临床精度与创造力悖论在医学影像领域,生成式AI长期面临一个根本性权衡:用于潜在扩散模型的数据压缩分词器,要么以牺牲生成灵活性为代价保留临床保真度,要么允许创作自由却丢失放射科医生依赖的精细纹理和边界细节。由顶尖学术医疗中心研究团队开发的BrainG3N,通过双AI与系统工程:十年共生,重写规则一项全面的回顾性研究系统梳理了过去十年人工智能与系统工程相互交织的演进历程,揭示出一条从工具辅助设计到范式级重构的发展轨迹。研究将这一进程划分为三个阶段:基础阶段、应用阶段和大语言模型(LLM)拐点阶段。在基础阶段,系统工程为早期AI系统提无标题For years, the tokenization layer of large language models has been an afterthought—a statistical compression trick that查看来源专题页arXiv cs.AI 已收录 501 篇文章

相关专题

large language models179 篇相关文章

时间归档

May 20263028 篇已发布文章

延伸阅读

创新幻觉:为何聊天机器人精通对话却无法真正解决问题一项跨学科新分析揭示,大型语言模型陷入“创新幻觉”——它们能生成流畅对话,却无法真正解决新问题。这一发现挑战了AI行业的核心叙事,迫使人们对创造力与突破性思维重新校准预期。VAMPS Benchmark Exposes Multimodal AI's Fatal Flaw: Can't Think by DrawingThe new VAMPS benchmark exposes a critical blind spot in multimodal AI: models can interpret static images but fail whenTOTEN Rewrites Tokenization: How Engineering Ontology Replaces BPE's Statistical FragmentsTOTEN introduces a paradigm shift in tokenization for large language models, replacing BPE's statistical fragmentation w大语言模型能否「发明」零?一项新研究检验AI的原始数学发现能力一项新研究向AI社区抛出一个看似简单却极具挑战的问题:大语言模型能否独立发现「零」的概念?实验结果暗示,模型具备超越模式匹配的符号推理隐藏能力,这或将重新定义AI在科学发现中的角色。

常见问题

这次模型发布“CreativityBench Exposes AI's Hidden Flaw: Can't Think Outside the Box”的核心内容是什么?

The AI community has long celebrated progress in logic, code generation, and environmental interaction. But a new evaluation framework, CreativityBench, delivers a sobering reality…

从“How to improve AI creative tool use”看,这个模型发布为什么重要?

CreativityBench is not just another benchmark; it is a targeted stress test for a cognitive capability that has been largely ignored: affordance-based creative tool use. The term 'affordance,' coined by psychologist Jame…

围绕“Affordance reasoning vs pattern matching”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。