技术深度解析
CreativityBench并非又一个普通基准测试;它是一场针对长期被忽视的认知能力的定向压力测试:基于功能可供性的创造性工具使用。术语“功能可供性”(affordance)由心理学家James J. Gibson提出,指物体向智能体提供的行动可能性。一把椅子可供就坐,但也可供站立、堵门,甚至在被拆解后充当木制杠杆。当前的大语言模型被训练将物体映射到其规范功能——锤子用于敲击,鞋子用于穿着。CreativityBench迫使模型打破这种映射。
该基准测试包含500个任务,每个任务向智能体提出一个目标(例如,“将钉子钉入墙壁”)并提供一组不包含常规工具(锤子)的物体。智能体必须选择一个替代物体(例如,鞋子、石头、厚书)并描述如何使用它。评估分为两部分:(1)物体选择准确率——模型是否选择了物理上合理的替代品?(2)使用描述质量——模型的解释是否正确利用了物体的功能可供性(例如,“利用鞋子的硬鞋跟作为敲击面”)。
结果令人震惊。下表展示了各领先模型在物体选择任务上的表现:
| 模型 | 物体选择准确率 | 使用描述质量(BERTScore F1) |
|---|---|---|
| GPT-4o | 28.4% | 0.61 |
| Claude 3.5 Sonnet | 26.1% | 0.58 |
| Gemini 1.5 Pro | 24.7% | 0.55 |
| Llama 3.1 405B | 22.3% | 0.52 |
| 人类(基线) | 87.2% | 0.91 |
数据要点: AI与人类表现之间的差距并非渐进式的——而是一条鸿沟。即使是最好的模型,在选择创造性工具方面也比人类差三倍以上。这表明当前架构缺乏基本的推理机制。
模型为何失败?根源在于物体的静态属性编码。在典型的Transformer中,像“鞋子”这样的物体由一个token嵌入表示,该嵌入聚合了训练数据中的所有上下文。这个嵌入是“ footwear”、“leather”、“sole”、“lace”等概念的混合体,但它并未显式编码硬度(邵氏硬度)、密度(kg/m³)或摩擦系数等物理属性。当被要求将鞋子用作锤子时,模型无法动态计算鞋跟是否足够坚硬以传递力。相反,它检索出最频繁的统计使用模式——“穿在脚上”——并拒绝替代方案。
为解决这一问题,研究人员正在探索动态属性推理层。MIT CSAIL近期一篇预印本(尚未在GitHub上发布,但与“PropertyNet”项目相关)中详细介绍了一种有前景的方法,提出了一种两阶段架构:首先,视觉语言模型从物体图像中提取物理属性(例如,“这只鞋子有橡胶鞋底、皮革鞋面和硬塑料鞋跟”);其次,推理模块利用这些属性模拟该工具对给定任务的有效性。GitHub仓库“affordance-net”(1.2k星)为机器人抓取实现了类似思路,使用图神经网络从点云预测抓取功能可供性。然而,它尚未扩展到创造性工具使用。
另一个相关的开源项目是“ToolEmu”(2.8k星),它在虚拟环境中模拟工具使用,但专注于常规工具使用,而非创造性重新利用。CreativityBench团队已在GitHub上发布了一个小型评估套件(仓库:“creativity-bench”,450星),允许研究人员测试自己的模型。
技术要点: 前进的道路需要将物体身份与物理属性解耦。模型必须学习一种组合式表征,其中“硬度”、“形状”和“重量”是独立的潜在变量,可以针对新任务重新组合。这是一个与下一个词元预测根本不同的学习目标。
关键参与者与案例研究
多个组织已在应对这一挑战,尽管没有一家完全解决。
Google DeepMind 通过其“Socratic models”和“SayCan”工作,一直是功能可供性推理的领导者。SayCan是一个将语言模型与技能库相结合的机器人系统,能够理解“给我拿杯饮料”这样的指令,但当被要求“用书撑开门”时却会失败,因为“用书撑门”这一技能不在其库中。DeepMind的最新研究“AffordanceGPT”试图通过查询物理模拟器即时生成新技能,但在实时使用中仍计算成本高昂且速度缓慢。
MIT CSAIL(Pulkit Agrawal教授团队)开发了“PropertyNet”,这是一个从单张图像预测物理属性(质量、摩擦力、弹性)的神经网络。当与规划器集成时,它可以建议创造性工具使用——例如,用煎锅当锤子。然而,该系统仍处于实验室阶段,尚未部署到物理机器人上。
OpenAI