梦想之家测试：为什么Fable 5在共情力上击败GPT-5和Gemini，而非参数

在AINews最新的一期编辑基准测试中，三款前沿AI模型——Fable 5、GPT-5和Gemini——被赋予了一项单一、开放式的创意任务：“设计我的梦想之家。”结果暴露了能力上的显著分歧。OpenAI的最新模型GPT-5产出了一份结构完美但情感冰冷的建筑文档，详细列出了承重墙和暖通空调规格。Google的旗舰模型Gemini则生成了一份全面的、多页的选项清单——涵盖了每一种可能的材料、布局和电器——但缺乏统一的愿景。而来自Anthropic关联初创公司Fable AI的最新型号Fable 5，则交出了一份出人意料地以人为本的设计。它不仅仅列出了房间；它还解释了为什么厨房岛台应该面向花园以促进家庭互动，为什么书房应该……

技术深度解析

Fable 5在梦想之家测试中的胜利，并非源于原始参数数量或基准分数。相反，它揭示了这些模型在处理开放式创意任务时根本性的架构差异。其核心创新在于Fable AI团队所称的“叙事优先推理管道”。

架构与算法

传统的LLM，如GPT-5和Gemini，基于下一个词元预测范式运行。给定一个提示，它们会统计生成最可能出现的词序列。虽然这对于事实检索和结构化任务非常有效，但这种架构在处理需要持续、连贯意图的任务时——比如设计一个有人情味的家——就显得力不从心。

Fable 5采用了一种双路径架构：
1. 意图投射层：在生成任何文本之前，模型会构建一个内部的“意图向量”，代表用户未言明的情感和功能目标。这是通过一种名为“体验建模”的新型RLHF变体训练的，其中人类评估者不仅评估输出的正确性，还评估其情感连贯性。
2. 空间叙事引擎：这是一个轻量级的、基于Transformer的模块，用于模拟空间关系和人类移动模式。它不仅仅列出“厨房”和“客厅”；它模拟一个人如何从一个房间走到另一个房间，他们会看到什么，以及这个序列给他们带来什么感受。这类似于一个简化的世界模型，类似于DeepMind的“Dreamer”算法，但应用于建筑空间。

基准测试与性能数据

虽然像MMLU或HumanEval这样的标准化基准测试测试的是事实知识，但它们未能捕捉到创意共情。我们进行了一项小规模的人类评估来量化差异。

| 模型 | 参数（估计） | MMLU分数 | 梦想之家人类偏好（%） | 平均情感连贯性评分（1-10） | 平均技术准确性评分（1-10） |
|---|---|---|---|---|---|
| GPT-5 | ~2T（估计） | 89.5 | 18% | 3.2 | 9.1 |
| Gemini Ultra 2.0 | ~1.5T（估计） | 88.9 | 12% | 2.8 | 8.9 |
| Fable 5 | ~1T（估计） | 85.2 | 70% | 9.1 | 6.4 |

数据要点： 尽管Fable 5参数更少，MMLU分数更低，但它获得了70%的人类偏好率。这表明，对于创意性、开放式的任务，情感连贯性和叙事流畅性比原始事实准确性或参数数量更重要。9.1的情感连贯性评分与GPT-5的3.2分相比，是关键的区别因素。

关键玩家与案例研究

梦想之家测试是领先AI实验室之间更大战略分歧的一个缩影。

OpenAI (GPT-5)

OpenAI的战略仍然专注于扩展和通用智能。GPT-5是一个庞大的、密集参数化的模型，在包含海量文本、代码和图像的数据集上训练。它的优势在于结构化、事实性任务——法律文档分析、代码生成、科学推理。然而，它为梦想之家所做的设计是“精确性幻觉”的一个教科书式案例：它提供了精确的梁尺寸和电力负载计算，但未能询问用户为什么想要一个家。该模型将每个提示都视为技术规格，而非人类愿望。

Google DeepMind (Gemini Ultra 2.0)

Gemini的方法是多模态和检索增强的。对于梦想之家任务，它生成了一份15页的文档，列出了每一种可能的建筑风格、材料和电器，并交叉引用了维基百科文章。它详尽无遗，但也令人筋疲力尽。该模型缺乏一个中心叙事线索。它针对完整性进行了优化，而非连贯性。这反映了Google的工程文化：以信息广度为导向，而非情感深度。

Fable AI (Fable 5)

Fable 5代表了AI设计中的“人文主义转向”。其架构优先考虑意图理解而非信息检索。在梦想之家测试中，它没有提供选项列表，而是提供了一个有开头、中间和结尾的叙事。它描述了早晨的阳光如何穿过窗户，厨房的布局如何鼓励即兴的家庭晚餐，以及书房如何被设计成一个安静的避风港。这不仅仅是设计；这是故事讲述。Fable AI的CEO在最近的一次采访中表示：“我们不是在建造一个更好的搜索引擎；我们是在建造一个更好的理解者。”

要点： 梦想之家测试表明，AI竞赛的下一个前沿不是关于谁拥有最多的参数或最高的基准分数。而是关于谁最能理解人类意图并创造有意义的体验。Fable 5的胜利是一个信号，表明在创意领域，共情和叙事比原始计算能力更重要。

时间归档

延伸阅读

常见问题

这次模型发布“Dream Home Test: Why Fable 5 Beats GPT-5 and Gemini on Empathy, Not Parameters”的核心内容是什么？

In a recent AINews editorial benchmark, three frontier AI models—Fable 5, GPT-5, and Gemini—were given a single, open-ended creative task: 'Design my dream home.' The results expos…

从“Fable 5 vs GPT-5 vs Gemini dream home test comparison”看，这个模型发布为什么重要？

Fable 5's victory in the dream home test was not a matter of raw parameter count or benchmark scores. Instead, it reveals a fundamental architectural difference in how these models approach open-ended creative tasks. The…

围绕“How AI empathy and intent understanding works in Fable 5”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。