CreativityBench曝光AI致命短板:无法跳出思维定式

arXiv cs.AI May 2026
来源:arXiv cs.AIlarge language models归档:May 2026
一项名为CreativityBench的新基准测试揭示,即便是最先进的大语言模型,在创造性工具使用方面也表现糟糕——比如用鞋子当锤子、用围巾当绳子。这一发现挑战了AI接近人类智能的说法,并暴露出其在物体功能推理上的根本缺陷。

AI社区长期以来在逻辑推理、代码生成和环境交互方面取得了显著进展。但一项名为CreativityBench的新评估框架给出了一个清醒的现实检验:当前的大语言模型在横向思维方面表现极差。该基准测试考验智能体以非常规方式重新利用日常物品的能力——例如,用鞋子钉钉子,或用围巾捆绑包裹。结果显示,GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro等模型在这些任务上的准确率低于30%,而人类的表现超过85%。这并非一个微不足道的边缘案例;它直击智能的核心。CreativityBench衡量的是“功能可供性推理”——即根据物体的物理属性推断其潜在用途的能力。

技术深度解析

CreativityBench并非又一个普通基准测试;它是一场针对长期被忽视的认知能力的定向压力测试:基于功能可供性的创造性工具使用。术语“功能可供性”(affordance)由心理学家James J. Gibson提出,指物体向智能体提供的行动可能性。一把椅子可供就坐,但也可供站立、堵门,甚至在被拆解后充当木制杠杆。当前的大语言模型被训练将物体映射到其规范功能——锤子用于敲击,鞋子用于穿着。CreativityBench迫使模型打破这种映射。

该基准测试包含500个任务,每个任务向智能体提出一个目标(例如,“将钉子钉入墙壁”)并提供一组不包含常规工具(锤子)的物体。智能体必须选择一个替代物体(例如,鞋子、石头、厚书)并描述如何使用它。评估分为两部分:(1)物体选择准确率——模型是否选择了物理上合理的替代品?(2)使用描述质量——模型的解释是否正确利用了物体的功能可供性(例如,“利用鞋子的硬鞋跟作为敲击面”)。

结果令人震惊。下表展示了各领先模型在物体选择任务上的表现:

| 模型 | 物体选择准确率 | 使用描述质量(BERTScore F1) |
|---|---|---|
| GPT-4o | 28.4% | 0.61 |
| Claude 3.5 Sonnet | 26.1% | 0.58 |
| Gemini 1.5 Pro | 24.7% | 0.55 |
| Llama 3.1 405B | 22.3% | 0.52 |
| 人类(基线) | 87.2% | 0.91 |

数据要点: AI与人类表现之间的差距并非渐进式的——而是一条鸿沟。即使是最好的模型,在选择创造性工具方面也比人类差三倍以上。这表明当前架构缺乏基本的推理机制。

模型为何失败?根源在于物体的静态属性编码。在典型的Transformer中,像“鞋子”这样的物体由一个token嵌入表示,该嵌入聚合了训练数据中的所有上下文。这个嵌入是“ footwear”、“leather”、“sole”、“lace”等概念的混合体,但它并未显式编码硬度(邵氏硬度)、密度(kg/m³)或摩擦系数等物理属性。当被要求将鞋子用作锤子时,模型无法动态计算鞋跟是否足够坚硬以传递力。相反,它检索出最频繁的统计使用模式——“穿在脚上”——并拒绝替代方案。

为解决这一问题,研究人员正在探索动态属性推理层。MIT CSAIL近期一篇预印本(尚未在GitHub上发布,但与“PropertyNet”项目相关)中详细介绍了一种有前景的方法,提出了一种两阶段架构:首先,视觉语言模型从物体图像中提取物理属性(例如,“这只鞋子有橡胶鞋底、皮革鞋面和硬塑料鞋跟”);其次,推理模块利用这些属性模拟该工具对给定任务的有效性。GitHub仓库“affordance-net”(1.2k星)为机器人抓取实现了类似思路,使用图神经网络从点云预测抓取功能可供性。然而,它尚未扩展到创造性工具使用。

另一个相关的开源项目是“ToolEmu”(2.8k星),它在虚拟环境中模拟工具使用,但专注于常规工具使用,而非创造性重新利用。CreativityBench团队已在GitHub上发布了一个小型评估套件(仓库:“creativity-bench”,450星),允许研究人员测试自己的模型。

技术要点: 前进的道路需要将物体身份与物理属性解耦。模型必须学习一种组合式表征,其中“硬度”、“形状”和“重量”是独立的潜在变量,可以针对新任务重新组合。这是一个与下一个词元预测根本不同的学习目标。

关键参与者与案例研究

多个组织已在应对这一挑战,尽管没有一家完全解决。

Google DeepMind 通过其“Socratic models”和“SayCan”工作,一直是功能可供性推理的领导者。SayCan是一个将语言模型与技能库相结合的机器人系统,能够理解“给我拿杯饮料”这样的指令,但当被要求“用书撑开门”时却会失败,因为“用书撑门”这一技能不在其库中。DeepMind的最新研究“AffordanceGPT”试图通过查询物理模拟器即时生成新技能,但在实时使用中仍计算成本高昂且速度缓慢。

MIT CSAIL(Pulkit Agrawal教授团队)开发了“PropertyNet”,这是一个从单张图像预测物理属性(质量、摩擦力、弹性)的神经网络。当与规划器集成时,它可以建议创造性工具使用——例如,用煎锅当锤子。然而,该系统仍处于实验室阶段,尚未部署到物理机器人上。

OpenAI

更多来自 arXiv cs.AI

ARMOR 2025:改写游戏规则的军事AI安全基准测试长期以来,AI安全社区一直专注于防止模型生成仇恨言论、虚假信息或有害建议。但对于军事应用而言,这些基准测试远远不够,甚至危险。由国防研究人员与AI伦理学家联合开发的ARMOR 2025,是首个旨在测试LLM对实际军事条令——包括武装冲突法、智能体安全的关键不在模型本身,而在于它们如何“对话”多年来,AI安全社区一直基于一个看似合理的假设运作:如果多智能体系统中的每个模型都经过单独对齐且安全,那么整个系统也将是安全的。然而,来自跨机构研究团队的最新立场论文已证明这一假设是错误的。论文指出,智能体AI安全与公平性的关键决定因素是交低延迟欺诈检测:守护AI代理免受对抗攻击的动态护盾随着大语言模型(LLM)代理变得更加自主,能够执行复杂任务并调用外部工具,它们也成了复杂对抗攻击的主要目标。传统的提示级过滤器和静态规则护栏在多轮操控、隐藏在工具输出中的间接提示注入以及渐进式升级策略面前显得力不从心。一种新的安全范式正在涌查看来源专题页arXiv cs.AI 已收录 280 篇文章

相关专题

large language models131 篇相关文章

时间归档

May 2026784 篇已发布文章

延伸阅读

工具使用的隐性税:LLM智能体何时该思考,而非搜索一项采用因子化干预框架的新研究表明,在语义干扰条件下,为LLM配备计算器、搜索引擎等外部工具反而会降低其推理性能。这种“工具使用税”挑战了业界对工具增强架构的盲目信任。AR眼镜+大模型:实时心理操控攻击时代来临一种名为AR-LLM-SE的新型社会工程攻击,利用AR眼镜捕捉视觉与音频数据,再由大语言模型实时分析生成详细的心理画像与操控策略。这标志着攻击从数据窃取转向实时心理控制,威胁等级急剧升级。图结构智能:大语言模型如何学会在网络中思考生成式AI的前沿正从孤立的文本生成转向互联的结构化推理。图技术与大语言模型的战略融合,标志着一场根本性的架构演进,使AI系统能够驾驭复杂关系网络,实现更深层次的理解与更可靠的决策。这一交汇正在催生新一代智能。KWBench重塑AI评估范式:从解题到发现问题全新基准测试KWBench正在挑战人工智能评估的根本前提。它不再测试大语言模型回答问题或执行任务的能力,而是衡量其在复杂、非结构化专业场景中自主发现并阐明核心问题的能力。这一从评估执行转向评估认知的变革,或将重新定义AI能力的疆界。

常见问题

这次模型发布“CreativityBench Exposes AI's Hidden Flaw: Can't Think Outside the Box”的核心内容是什么?

The AI community has long celebrated progress in logic, code generation, and environmental interaction. But a new evaluation framework, CreativityBench, delivers a sobering reality…

从“How to improve AI creative tool use”看,这个模型发布为什么重要?

CreativityBench is not just another benchmark; it is a targeted stress test for a cognitive capability that has been largely ignored: affordance-based creative tool use. The term 'affordance,' coined by psychologist Jame…

围绕“Affordance reasoning vs pattern matching”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。