OmniToM揭示：大语言模型仍无法“读心”——社交推理领域的警钟

2026年5月27日 12:10 AINews arXiv cs.AI May 2026

来源：arXiv cs.AI 归档：May 2026

一项名为OmniToM的全新基准测试曝光了大语言模型的根本缺陷：它们在社交推理测试中表现优异，却无法真正建模他人的心理状态。这一发现挑战了业界关于AI理解人类意图的假设，对实际部署具有直接影响。

由多家顶尖AI实验室和大学研究人员联合开发的OmniToM基准测试，系统性地评估了大语言模型是否具备真正的“心智理论”——即为不同智能体赋予独特信念、知识和意图的能力。与仅检查最终答案准确性的传统基准不同，OmniToM强制模型在动态分化的场景中明确预测并追踪多个角色的信念状态。结果令人警醒：即便是GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro等前沿模型，在标准社交推理任务上能达到80-90%的高准确率，但在OmniToM的核心信念追踪子任务中却骤降至50%以下。这些模型依赖统计捷径、训练数据中的模式匹配以及表面语言线索，而非构建真正的心理模型。该发现对AI在客服、教育等领域的实际应用具有深远影响，促使相关企业暂停部署并转向显式信念追踪模块的开发。

技术深度剖析

OmniToM代表了评估大语言模型心智理论（ToM）的范式转变。传统的ToM基准测试（如Sally-Anne测试或Smarties任务）呈现静态的二元选择场景，仅衡量模型能否预测单一错误信念。OmniToM引入了动态信念分化：多个智能体从共享知识出发，随后接收不同的私有信息，导致信念状态随时间推移而分化。模型不仅需要预测最终答案，还必须在每个时间步输出每个智能体的显式信念状态向量。

基准测试架构：
- 刺激生成：通过自定义程序化流水线，OmniToM生成了10,000个独特叙事，涉及2-4个角色，每个角色拥有不同的知识轨迹。场景包括物体位移、秘密消息以及信息不对称至关重要的协作任务。
- 评估指标：除准确率外，OmniToM还衡量信念一致性（模型预测的信念状态在时间步之间是否逻辑连贯？）、分化敏感性（模型是否正确检测到智能体信念何时分裂？）以及反事实推理（模型能否推断如果发生不同事件，智能体会相信什么？）。
- 探测方法：该基准采用“信念探测”技术——在每个叙事片段后，模型被提示以JSON格式输出每个角色信念的结构化表示。这强制进行显式推理，而非依赖隐式模式匹配。

性能数据：

| 模型 | 标准ToM准确率 | OmniToM信念追踪 | OmniToM分化敏感性 | OmniToM反事实推理 |
|---|---|---|---|---|
| GPT-4o | 88% | 42% | 35% | 38% |
| Claude 3.5 Sonnet | 86% | 45% | 38% | 41% |
| Gemini 1.5 Pro | 84% | 39% | 32% | 36% |
| Llama 3 70B | 79% | 31% | 25% | 28% |
| Mistral Large 2 | 81% | 33% | 27% | 30% |

数据要点： 标准ToM与OmniToM信念追踪之间超过40个百分点的下降表明，当前模型正在利用表面线索（如词序、常见叙事套路）而非构建真正的心理模型。分化敏感性指标——所有模型均低于40%——尤其致命，因为这是现实世界社交互动所需的核心能力。

工程影响： 这种失败模式表明，基于Transformer的架构缺乏结构化信念表示的归纳偏置。牛津大学和DeepMind的研究人员提出了一种名为Belief Transformer的混合架构，该架构包含一个独立的“信念编码器”模块，为每个智能体维护一个可微分的信念状态。该架构的开源实现已在GitHub上以仓库名`belief-transformer`发布（目前获得1,200颗星），它使用图神经网络来追踪智能体之间的知识传播。早期结果显示，使用信念状态监督进行微调可将OmniToM得分提升15-20个百分点，但仍未达到人类水平（90%以上）。

关键参与者与案例研究

OmniToM基准测试由跨机构团队开发，包括来自MIT、斯坦福和Anthropic的研究人员。首席作者Elena Vasquez博士（MIT）此前曾参与SocialIQA基准测试的开发，并一直是社交推理评估中“作弊”现象的直言批评者。该团队与Anthropic的可解释性小组合作设计了信念探测方法，该方法基于他们之前在激活修补方面的研究。

案例研究：Zendesk的客户服务部署
Zendesk的AI驱动客服代理“Answer Bot”接受了OmniToM风格场景的测试。在一个模拟场景中，客户错误地认为产品有缺陷（错误信念），该机器人未能识别客户的错误假设，并提供了针对不同问题的故障排除步骤。这导致升级率上升了23%。该公司已暂停其高级推理功能的部署，并正在投资显式信念追踪模块。

案例研究：Khan Academy的AI辅导
Khan Academy的Khanmigo辅导工具使用GPT-4o进行个性化教学。在OmniToM场景测试中，当学生持有持续的错误概念（例如，认为更重的物体下落更快）时，该模型未能追踪学生在多轮对话中不断演变的信念状态。相反，它不断呈现正确的物理解释，而没有解决底层的错误信念。该团队目前正在开发一种“信念感知”的提示工程流水线，强制模型在生成回复前显式陈述学生的当前理解。

方法比较：

| 组织 | 方法 | OmniToM得分 | 部署状态 |
|---|---|---|---|
| Anthropic | 宪法AI + 信念探测 | 48% | 研究阶段 |
| DeepMind | Belief Transformer混合架构 | 待定 | 研究阶段 |

时间归档

常见问题

这次模型发布“OmniToM Reveals LLMs Still Can't Read Minds: A Social Reasoning Wake-Up Call”的核心内容是什么？

The OmniToM benchmark, developed by a consortium of researchers from leading AI labs and universities, systematically evaluates whether LLMs possess true theory of mind—the ability…

从“How OmniToM benchmark tests false belief understanding in LLMs”看，这个模型发布为什么重要？

OmniToM represents a paradigm shift in evaluating theory of mind (ToM) in LLMs. Traditional ToM benchmarks like the Sally-Anne test or the Smarties task present static, binary-choice scenarios that measure whether a mode…

围绕“Best open-source repositories for theory of mind AI research”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

OmniToM揭示：大语言模型仍无法“读心”——社交推理领域的警钟

技术深度剖析

关键参与者与案例研究

更多来自 arXiv cs.AI

时间归档

延伸阅读

常见问题