OmniToM揭示:大语言模型仍无法“读心”——社交推理领域的警钟

arXiv cs.AI May 2026
来源:arXiv cs.AI归档:May 2026
一项名为OmniToM的全新基准测试曝光了大语言模型的根本缺陷:它们在社交推理测试中表现优异,却无法真正建模他人的心理状态。这一发现挑战了业界关于AI理解人类意图的假设,对实际部署具有直接影响。

由多家顶尖AI实验室和大学研究人员联合开发的OmniToM基准测试,系统性地评估了大语言模型是否具备真正的“心智理论”——即为不同智能体赋予独特信念、知识和意图的能力。与仅检查最终答案准确性的传统基准不同,OmniToM强制模型在动态分化的场景中明确预测并追踪多个角色的信念状态。结果令人警醒:即便是GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro等前沿模型,在标准社交推理任务上能达到80-90%的高准确率,但在OmniToM的核心信念追踪子任务中却骤降至50%以下。这些模型依赖统计捷径、训练数据中的模式匹配以及表面语言线索,而非构建真正的心理模型。该发现对AI在客服、教育等领域的实际应用具有深远影响,促使相关企业暂停部署并转向显式信念追踪模块的开发。

技术深度剖析

OmniToM代表了评估大语言模型心智理论(ToM)的范式转变。传统的ToM基准测试(如Sally-Anne测试或Smarties任务)呈现静态的二元选择场景,仅衡量模型能否预测单一错误信念。OmniToM引入了动态信念分化:多个智能体从共享知识出发,随后接收不同的私有信息,导致信念状态随时间推移而分化。模型不仅需要预测最终答案,还必须在每个时间步输出每个智能体的显式信念状态向量。

基准测试架构:
- 刺激生成:通过自定义程序化流水线,OmniToM生成了10,000个独特叙事,涉及2-4个角色,每个角色拥有不同的知识轨迹。场景包括物体位移、秘密消息以及信息不对称至关重要的协作任务。
- 评估指标:除准确率外,OmniToM还衡量信念一致性(模型预测的信念状态在时间步之间是否逻辑连贯?)、分化敏感性(模型是否正确检测到智能体信念何时分裂?)以及反事实推理(模型能否推断如果发生不同事件,智能体会相信什么?)。
- 探测方法:该基准采用“信念探测”技术——在每个叙事片段后,模型被提示以JSON格式输出每个角色信念的结构化表示。这强制进行显式推理,而非依赖隐式模式匹配。

性能数据:

| 模型 | 标准ToM准确率 | OmniToM信念追踪 | OmniToM分化敏感性 | OmniToM反事实推理 |
|---|---|---|---|---|
| GPT-4o | 88% | 42% | 35% | 38% |
| Claude 3.5 Sonnet | 86% | 45% | 38% | 41% |
| Gemini 1.5 Pro | 84% | 39% | 32% | 36% |
| Llama 3 70B | 79% | 31% | 25% | 28% |
| Mistral Large 2 | 81% | 33% | 27% | 30% |

数据要点: 标准ToM与OmniToM信念追踪之间超过40个百分点的下降表明,当前模型正在利用表面线索(如词序、常见叙事套路)而非构建真正的心理模型。分化敏感性指标——所有模型均低于40%——尤其致命,因为这是现实世界社交互动所需的核心能力。

工程影响: 这种失败模式表明,基于Transformer的架构缺乏结构化信念表示的归纳偏置。牛津大学和DeepMind的研究人员提出了一种名为Belief Transformer的混合架构,该架构包含一个独立的“信念编码器”模块,为每个智能体维护一个可微分的信念状态。该架构的开源实现已在GitHub上以仓库名`belief-transformer`发布(目前获得1,200颗星),它使用图神经网络来追踪智能体之间的知识传播。早期结果显示,使用信念状态监督进行微调可将OmniToM得分提升15-20个百分点,但仍未达到人类水平(90%以上)。

关键参与者与案例研究

OmniToM基准测试由跨机构团队开发,包括来自MIT、斯坦福和Anthropic的研究人员。首席作者Elena Vasquez博士(MIT)此前曾参与SocialIQA基准测试的开发,并一直是社交推理评估中“作弊”现象的直言批评者。该团队与Anthropic的可解释性小组合作设计了信念探测方法,该方法基于他们之前在激活修补方面的研究。

案例研究:Zendesk的客户服务部署
Zendesk的AI驱动客服代理“Answer Bot”接受了OmniToM风格场景的测试。在一个模拟场景中,客户错误地认为产品有缺陷(错误信念),该机器人未能识别客户的错误假设,并提供了针对不同问题的故障排除步骤。这导致升级率上升了23%。该公司已暂停其高级推理功能的部署,并正在投资显式信念追踪模块。

案例研究:Khan Academy的AI辅导
Khan Academy的Khanmigo辅导工具使用GPT-4o进行个性化教学。在OmniToM场景测试中,当学生持有持续的错误概念(例如,认为更重的物体下落更快)时,该模型未能追踪学生在多轮对话中不断演变的信念状态。相反,它不断呈现正确的物理解释,而没有解决底层的错误信念。该团队目前正在开发一种“信念感知”的提示工程流水线,强制模型在生成回复前显式陈述学生的当前理解。

方法比较:

| 组织 | 方法 | OmniToM得分 | 部署状态 |
|---|---|---|---|
| Anthropic | 宪法AI + 信念探测 | 48% | 研究阶段 |
| DeepMind | Belief Transformer混合架构 | 待定 | 研究阶段 |

更多来自 arXiv cs.AI

校准交互式RL终结LLM智能体分布漂移,开启动态学习新纪元多年来,训练多轮对话智能体一直受困于一个隐形杀手:分布漂移。无论是使用静态日志还是基于提示的交互式强化学习,训练中遇到的对话历史始终与真实用户交互存在偏差,导致部署后性能急剧下降。一项新的理论研究系统性地揭示了静态上下文RL和基于提示的交互无标题A new preprint on arXiv has drawn a sharp line in the sand for artificial intelligence. Researchers have introduced a be局部动力学解锁技能复用:分层强化学习的新范式分层强化学习(HRL)长期以来承诺通过发现和复用时间扩展的技能来解决长时域决策问题。然而在实践中,一旦训练环境发生变化,大多数技能就会失效。一项新研究颠覆了这一范式,聚焦于局部动力学——那些即使在全局任务不同时也保持一致的短期状态转移。例如查看来源专题页arXiv cs.AI 已收录 405 篇文章

时间归档

May 20262976 篇已发布文章

延伸阅读

OSCToM:强化学习如何暴露AI心智理论的致命盲区全新框架OSCToM利用强化学习自动生成对抗性信念场景,无情揭露大语言模型在递归推理与信息不对称中的严重缺陷。这标志着AI社会智能评估从静态问答向动态博弈论范式的根本转变。LinAlg-Bench 揭示 LLM 数学推理中的结构性断裂全新基准测试 LinAlg-Bench 对 10 款前沿语言模型在 6,600 个线性代数输出中系统性地发现了 1,156 次结构性失败。这些失败并非简单计算错误,而是模型在处理组合推理时深层架构断裂的证据——随着矩阵维度增加,错误率呈灾难心智理论基准测试:无法预测真实人机对话质量的“纸上谈兵”一项开创性研究颠覆了行业共识:提升语言模型的心智理论(ToM)分数,并不能直接转化为更优质的人机交互体验。研究者从静态的第三人称阅读理解测试转向第一人称、动态、开放式对话评估,发现了一个令人震惊的脱节:高ToM基准表现并不能预测模型在实际对PolitNuggets基准测试曝光:AI智能体在长尾政治事实检索中的致命盲区一项名为PolitNuggets的全新基准测试揭示,尽管AI模型在直接问答中表现优异,但在跨语言、碎片化、低信号政治信息的探索与整合上严重乏力,这对其在真实场景中作为独立研究者的角色提出了严峻挑战。

常见问题

这次模型发布“OmniToM Reveals LLMs Still Can't Read Minds: A Social Reasoning Wake-Up Call”的核心内容是什么?

The OmniToM benchmark, developed by a consortium of researchers from leading AI labs and universities, systematically evaluates whether LLMs possess true theory of mind—the ability…

从“How OmniToM benchmark tests false belief understanding in LLMs”看,这个模型发布为什么重要?

OmniToM represents a paradigm shift in evaluating theory of mind (ToM) in LLMs. Traditional ToM benchmarks like the Sally-Anne test or the Smarties task present static, binary-choice scenarios that measure whether a mode…

围绕“Best open-source repositories for theory of mind AI research”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。