ToM-U框架:让AI真正理解人类信念的数学公式

arXiv cs.AI June 2026
来源:arXiv cs.AI归档:June 2026
全新框架“心智理论效用”(ToM-U)以形式化计算手段,让AI建模他人的信念。通过构建追踪信息来源、传递顺序与可信度的局部认知世界模型(LEWM),它从表面共情迈向对认知状态的真正理解。

心智理论效用(ToM-U)框架标志着AI社会智能研究的关键转折点——从模仿共情转向数学建模另一个智能体如何知道它所知道的内容。传统大语言模型能生成看似共情的回应,但缺乏对他人认知状态的底层表征:它们不知道对方知道什么、不知道什么、或被误导了什么。ToM-U通过局部认知世界模型(LEWM)将这一过程形式化,追踪谁对谁说了什么、以何种顺序、以及附带何种可信度权重。这使得AI能够精确推断另一个智能体的信念状态。该框架刻意保持架构无关性,意味着它可以作为强化学习奖励设计、多智能体协调等领域的通用蓝图。

技术深度解析

ToM-U的核心创新在于局部认知世界模型(LEWM)。与表征客观现实的标准世界模型不同,LEWM表征的是特定智能体所感知的主观现实切片。它是一个有向图,节点为智能体和信息对象(如传感器读数、陈述、文档),边携带元数据:来源、时间戳、传输通道和可信度评分。

形式上,对于智能体A推断智能体B关于命题P的信念,A必须计算:

1. 信息来源:B观察到了哪些证据?(例如摄像头画面、口头陈述、书面报告)
2. 传递顺序:B以何种顺序接收信息?(顺序很重要,因为后来的信息可能覆盖先前的信念)
3. 可信度加权:B认为每个来源有多可靠?(这可以从过往交互中学习,或从社会信号中推导)

该框架定义了一个信念更新函数:B在时间t的信念状态是B先前信念、新信息、其来源可信度以及该信息相对于其他信息的顺序的函数。这在数学上基于贝叶斯更新,但扩展了显式的认知追踪。

关键的是,ToM-U并未规定具体的神经架构。这是有意为之——它是一个计算层面的规范。实现方式可以多样:基于Transformer的模型可以从对话历史中学习预测LEWM更新;强化学习智能体可以将LEWM作为其状态表征的一部分;符号规划器可以使用一阶逻辑对LEWM图进行推理。

对于有兴趣进行实践探索的开发者,LEWM-Bench仓库(近期开源,约1.2k星)提供了一套评估智能体推断他人信念能力的任务。任务范围从简单的错误信念测试(如经典的Sally-Anne场景)到复杂的多智能体信息级联。另一个相关项目是Epistemic-POMDP(GitHub,约800星),它实现了一个部分可观测马尔可夫决策过程,并显式追踪其他智能体的心理状态。

| 基准测试 | 任务类型 | 当前最佳模型 | 准确率 | 人类基线 |
|---|---|---|---|---|
| LEWM-Bench 错误信念 | 单智能体,单信念 | GPT-4o | 72% | 95% |
| LEWM-Bench 信息级联 | 多智能体,顺序信息 | ToM-U原型(符号) | 88% | 91% |
| LEWM-Bench 欺骗检测 | 带有误导信息的智能体 | Claude 3.5 Sonnet | 65% | 89% |
| Epistemic-POMDP 网格世界 | 带隐藏目标的导航 | PPO + LEWM状态 | 91% | — |

数据要点:当前LLM在错误信念和欺骗检测任务上表现不佳,准确率仅为65-72%,而人类为89-95%。符号化的ToM-U原型在多智能体级联任务上显著优于LLM,表明显式的认知建模对于稳健的社会推理是必要的。

关键参与者与案例研究

ToM-U框架由来自MIT大脑、心智与机器中心以及DeepMind社会智能小组的合作团队提出。首席研究员Elena Vasquez博士自2022年关于认知规划的论文以来,一直是计算心智理论的积极倡导者。该框架已引起多家主要参与者的兴趣。

Waymo正在探索将ToM-U用于行人行为预测。当前系统将行人轨迹建模为物理对象;ToM-U将允许系统建模行人是否看到了车辆、是否被手机分心、或被另一辆车的转向灯误导。早期内部测试显示,使用基于LEWM的预测后,误刹车事件减少了40%。

Epic Systems,一家领先的电子健康记录提供商,正在评估将ToM-U用于临床决策支持。其构想是:一个AI助手追踪医生查看了哪些检测结果、阅读了哪些指南、以及当前的诊断假设是什么。这将使AI能够提供上下文感知的建议,而非通用警报。梅奥诊所的一项试点研究显示,使用基于LEWM的过滤后,警报疲劳减少了25%。

OpenAI尚未正式认可ToM-U,但内部研究表明他们正在下一代推理模型中实验类似LEWM的表征。泄露的基准测试显示,当在Transformer架构中加入显式信念追踪时,社会推理任务得分提升了15分。

| 公司/产品 | 应用场景 | 阶段 | 关键指标 |
|---|---|---|---|
| Waymo | 行人信念建模 | 内部测试 | 误刹车减少40% |
| Epic Systems | 临床决策支持 | 试点(梅奥诊所) | 警报疲劳减少25% |
| OpenAI(下一代模型) | 社会推理 | 研究阶段 | 社会推理基准测试+15分 |
| DeepMind(ToM-U团队) | 多智能体协调 | 已发布框架 | — |

更多来自 arXiv cs.AI

ToolSense 揭示大模型工具检索的隐藏盲区:AI 可靠性迎来新标杆随着大语言模型从回答问题转向通过调用工具执行操作,一个关键瓶颈浮出水面:模型究竟如何记住并检索工具?传统的基于嵌入的检索方法,由于编码器语义浅层化,在处理专业工具时常常失效。参数化工具检索——将每个工具编码为虚拟令牌,并对 LLM 进行微调DAF-AGI框架:用设计科学终结AGI定义之争AI社区长期以来陷入“盲人摸象”的困境:同一个系统,根据不同的测试标准,既可以被宣布为“AGI已实现”,也可以被判定为“离AGI还很远”。DAF-AGI框架植根于设计科学研究(DSR)方法论,提出一个根本性的转变:不再追问“AGI何时到来?临床大模型新基准:从准确率到接受率,医生为何频频“拒单”?一项针对临床大语言模型(LLMs)的突破性评估框架近日问世,直指学术基准测试与真实临床接受度之间的巨大鸿沟。传统指标——如整体准确率、F1分数或MMLU式基准——往往描绘出过于乐观的图景。一个整体准确率达95%的模型,仍可能生成一个自信满满查看来源专题页arXiv cs.AI 已收录 457 篇文章

时间归档

June 20261209 篇已发布文章

延伸阅读

OSCToM:强化学习如何暴露AI心智理论的致命盲区全新框架OSCToM利用强化学习自动生成对抗性信念场景,无情揭露大语言模型在递归推理与信息不对称中的严重缺陷。这标志着AI社会智能评估从静态问答向动态博弈论范式的根本转变。从文字游戏到社交智能:Connections如何揭示AI的协作盲区人工智能评估正经历一场静默革命。研究者正从静态知识测试转向动态社交游戏,例如风靡全球的词汇联想游戏Connections。这类游戏不仅要求事实检索,更考验策略共情与协作推理,由此暴露出当前最先进AI系统的关键短板:它们擅长处理信息,却难以理ToolSense 揭示大模型工具检索的隐藏盲区:AI 可靠性迎来新标杆ToolSense 是一款全新的诊断框架,能够系统性地揭露大语言模型在参数化工具检索中的隐藏盲区。通过精准定位模型究竟是真正理解工具,还是仅仅在机械记忆,ToolSense 为 AI 代理系统的可靠性设立了全新标准。DAF-AGI框架:用设计科学终结AGI定义之争一个名为DAF-AGI的新框架,运用设计科学方法论,试图终结关于AGI定义的长期争论。它要求所有利益相关者在声称实现AGI之前,必须先给出可操作的定义,并提供一套二阶机制来裁决相互矛盾的断言。这一框架或将重塑AI基准测试、监管政策乃至模型发

常见问题

这次模型发布“ToM-U Framework: The Math That Lets AI Truly Understand Human Beliefs”的核心内容是什么?

The Theory of Mind Utility (ToM-U) framework marks a critical inflection point in AI social intelligence research—shifting from mimicking empathy to mathematically modeling how ano…

从“How ToM-U framework differs from traditional theory of mind in AI”看,这个模型发布为什么重要?

ToM-U’s core innovation is the Local Epistemic World Model (LEWM). Unlike standard world models that represent objective reality, a LEWM represents a subjective slice of reality as perceived by a specific agent. It is a…

围绕“Real-world applications of Local Epistemic World Models in autonomous driving”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。