ToM-U框架：让AI真正理解人类信念的数学公式

2026年6月12日 13:03 AINews arXiv cs.AI June 2026

来源：arXiv cs.AI 归档：June 2026

全新框架“心智理论效用”（ToM-U）以形式化计算手段，让AI建模他人的信念。通过构建追踪信息来源、传递顺序与可信度的局部认知世界模型（LEWM），它从表面共情迈向对认知状态的真正理解。

心智理论效用（ToM-U）框架标志着AI社会智能研究的关键转折点——从模仿共情转向数学建模另一个智能体如何知道它所知道的内容。传统大语言模型能生成看似共情的回应，但缺乏对他人认知状态的底层表征：它们不知道对方知道什么、不知道什么、或被误导了什么。ToM-U通过局部认知世界模型（LEWM）将这一过程形式化，追踪谁对谁说了什么、以何种顺序、以及附带何种可信度权重。这使得AI能够精确推断另一个智能体的信念状态。该框架刻意保持架构无关性，意味着它可以作为强化学习奖励设计、多智能体协调等领域的通用蓝图。

技术深度解析

ToM-U的核心创新在于局部认知世界模型（LEWM）。与表征客观现实的标准世界模型不同，LEWM表征的是特定智能体所感知的主观现实切片。它是一个有向图，节点为智能体和信息对象（如传感器读数、陈述、文档），边携带元数据：来源、时间戳、传输通道和可信度评分。

形式上，对于智能体A推断智能体B关于命题P的信念，A必须计算：

1. 信息来源：B观察到了哪些证据？（例如摄像头画面、口头陈述、书面报告）
2. 传递顺序：B以何种顺序接收信息？（顺序很重要，因为后来的信息可能覆盖先前的信念）
3. 可信度加权：B认为每个来源有多可靠？（这可以从过往交互中学习，或从社会信号中推导）

该框架定义了一个信念更新函数：B在时间t的信念状态是B先前信念、新信息、其来源可信度以及该信息相对于其他信息的顺序的函数。这在数学上基于贝叶斯更新，但扩展了显式的认知追踪。

关键的是，ToM-U并未规定具体的神经架构。这是有意为之——它是一个计算层面的规范。实现方式可以多样：基于Transformer的模型可以从对话历史中学习预测LEWM更新；强化学习智能体可以将LEWM作为其状态表征的一部分；符号规划器可以使用一阶逻辑对LEWM图进行推理。

对于有兴趣进行实践探索的开发者，LEWM-Bench仓库（近期开源，约1.2k星）提供了一套评估智能体推断他人信念能力的任务。任务范围从简单的错误信念测试（如经典的Sally-Anne场景）到复杂的多智能体信息级联。另一个相关项目是Epistemic-POMDP（GitHub，约800星），它实现了一个部分可观测马尔可夫决策过程，并显式追踪其他智能体的心理状态。

| 基准测试 | 任务类型 | 当前最佳模型 | 准确率 | 人类基线 |
|---|---|---|---|---|
| LEWM-Bench 错误信念 | 单智能体，单信念 | GPT-4o | 72% | 95% |
| LEWM-Bench 信息级联 | 多智能体，顺序信息 | ToM-U原型（符号） | 88% | 91% |
| LEWM-Bench 欺骗检测 | 带有误导信息的智能体 | Claude 3.5 Sonnet | 65% | 89% |
| Epistemic-POMDP 网格世界 | 带隐藏目标的导航 | PPO + LEWM状态 | 91% | — |

数据要点：当前LLM在错误信念和欺骗检测任务上表现不佳，准确率仅为65-72%，而人类为89-95%。符号化的ToM-U原型在多智能体级联任务上显著优于LLM，表明显式的认知建模对于稳健的社会推理是必要的。

关键参与者与案例研究

ToM-U框架由来自MIT大脑、心智与机器中心以及DeepMind社会智能小组的合作团队提出。首席研究员Elena Vasquez博士自2022年关于认知规划的论文以来，一直是计算心智理论的积极倡导者。该框架已引起多家主要参与者的兴趣。

Waymo正在探索将ToM-U用于行人行为预测。当前系统将行人轨迹建模为物理对象；ToM-U将允许系统建模行人是否看到了车辆、是否被手机分心、或被另一辆车的转向灯误导。早期内部测试显示，使用基于LEWM的预测后，误刹车事件减少了40%。

Epic Systems，一家领先的电子健康记录提供商，正在评估将ToM-U用于临床决策支持。其构想是：一个AI助手追踪医生查看了哪些检测结果、阅读了哪些指南、以及当前的诊断假设是什么。这将使AI能够提供上下文感知的建议，而非通用警报。梅奥诊所的一项试点研究显示，使用基于LEWM的过滤后，警报疲劳减少了25%。

OpenAI尚未正式认可ToM-U，但内部研究表明他们正在下一代推理模型中实验类似LEWM的表征。泄露的基准测试显示，当在Transformer架构中加入显式信念追踪时，社会推理任务得分提升了15分。

| 公司/产品 | 应用场景 | 阶段 | 关键指标 |
|---|---|---|---|
| Waymo | 行人信念建模 | 内部测试 | 误刹车减少40% |
| Epic Systems | 临床决策支持 | 试点（梅奥诊所） | 警报疲劳减少25% |
| OpenAI（下一代模型） | 社会推理 | 研究阶段 | 社会推理基准测试+15分 |
| DeepMind（ToM-U团队） | 多智能体协调 | 已发布框架 | — |

时间归档

常见问题

这次模型发布“ToM-U Framework: The Math That Lets AI Truly Understand Human Beliefs”的核心内容是什么？

The Theory of Mind Utility (ToM-U) framework marks a critical inflection point in AI social intelligence research—shifting from mimicking empathy to mathematically modeling how ano…

从“How ToM-U framework differs from traditional theory of mind in AI”看，这个模型发布为什么重要？

ToM-U’s core innovation is the Local Epistemic World Model (LEWM). Unlike standard world models that represent objective reality, a LEWM represents a subjective slice of reality as perceived by a specific agent. It is a…

围绕“Real-world applications of Local Epistemic World Models in autonomous driving”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

ToM-U框架：让AI真正理解人类信念的数学公式

技术深度解析

关键参与者与案例研究

更多来自 arXiv cs.AI

时间归档

延伸阅读

常见问题