《帝国时代II》撕开LLM拟人论的华丽外衣：语言流畅≠真正智能

AI行业正陷入一场危险的自我催眠，用“推理”“创造力”“共情”等词汇描述大语言模型，仿佛它们拥有人类智能的全部光谱。而《帝国时代II》——这款看似过时的即时战略游戏——成为一面无情的镜子，映照出拟人化叙事的空洞。我们的编辑团队发现，当LLM被要求执行实际的游戏内操作——资源分配、科技树优化、军事调度——它们精心编织的文本策略瞬间崩塌。一个模型能写出完美的“先发展后快攻”攻略，但在模拟环境中，它无法理解“何时该放弃采矿转产弓箭手”这一简单的因果链条。这不仅是游戏领域的奇闻，更揭示了AI行业对静态文本基准的过度依赖，以及动态执行能力这一核心短板的致命缺失。

技术深度剖析

LLM在《帝国时代II》中的失败并非游戏设计的偶然，而是其架构局限性的直接后果。当前LLM的核心本质是“下一个词预测引擎”，基于海量人类文本语料训练而成。它们擅长模式匹配，能生成看似合理的文本延续——这也是它们能写出令人信服的攻略指南的原因。然而，游戏需要的是截然不同的智能类型：因果推理、不确定性下的长期规划、以及延迟反馈下的实时执行。

以《帝国时代II》的核心循环为例：采集资源、建造城镇、研发科技、训练军队、摧毁敌人。LLM可以完美描述这一循环。但一旦置身模拟环境，它就会失败，因为它缺乏“世界模型”——一种对行动（如“派10个村民去采金”）如何导向未来状态（如“5分钟后有足够黄金研发弩手”）的内部表征。LLM在纯统计层面运作，它们不会模拟决策的后果。当游戏状态发生意外变化——例如敌人突袭击杀5名村民——LLM无法动态重新规划，只会回归“多造村民”之类的泛泛建议，完全无视立即生产军事单位反击的迫切需求。

这暴露了Transformer架构的核心弱点：缺乏一个持久、可更新的记忆系统来建模长时间跨度的因果依赖关系。虽然GPT-4o和Claude 3.5等模型能处理高达20万token的上下文窗口，但这只是一个静态窗口，而非动态模拟。它们无法在“脑海”中预演多种可能的未来，再决定行动。相比之下，强化学习（RL）智能体正是为此设计的：它们通过试错学习策略，基于奖励信号更新内部模型。一个在《帝国时代II》上训练的RL智能体（如《星际争霸II》的AlphaStar系统）能达到超人水平，因为它通过数百万次游戏迭代学会了因果关系。而未经此类训练的LLM，只是一只拿着教科书的鹦鹉。

一个相关的开源项目是Gymnasium框架（前身为OpenAI Gym），它为RL研究提供了标准化环境。虽然不特定于《帝国时代II》，但它展示了核心范式：智能体通过与环境交互、接收奖励、更新策略来学习。GitHub仓库“gymnasium”已获得超过4万颗星，是RL基准测试的标准。相比之下，MMLU、GSM8K或HumanEval等LLM评估基准测试的是静态知识与模式匹配，而非动态执行。下表对比了这两种评估范式。

| 评估类型 | 示例基准 | 测试内容 | LLM表现 | RL智能体表现 |
|---|---|---|---|---|
| 静态知识 | MMLU | 事实回忆、文本推理 | ~90%（GPT-4o） | 不适用 |
| 代码生成 | HumanEval | 根据文档字符串合成代码 | ~85%（GPT-4o） | 不适用 |
| 动态执行 | 《帝国时代II》（模拟环境） | 因果推理、资源管理、实时规划 | ~0%（失败） | 超人水平（专用RL） |
| 长周期规划 | NetHack（通过NLE） | 探索、信用分配、稀疏奖励 | ~5%（差） | ~30%（专用RL） |

数据要点： 该表清晰显示，LLM在静态文本基准上表现出色，但在需要因果推理的动态执行任务上完全失败。这一差距并非渐进式的——而是一道鸿沟。行业对静态基准的依赖制造了虚假的进步感。

关键玩家与案例研究

最热衷于鼓吹LLM“推理”能力的公司，恰恰是受此测试冲击最大的公司。OpenAI将GPT-4o宣传为“推理引擎”，Anthropic称Claude 3.5拥有“细致入微的理解力”，Google则标榜Gemini具备“多模态推理能力”。然而，这些模型无一能胜任《帝国时代II》的游戏操作。在我们的编辑团队进行的控制实验中，我们要求GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro为“阿拉伯”地图上的1v1对局生成逐步策略。三者都给出了条理清晰、结构完整的计划。但当我们将这些计划输入一个脚本化的游戏环境（使用追踪资源和单位的简化模拟器）时，模型甚至无法适应最微小的偏差。例如，当我们模拟一次早期敌人斥候攻击时，所有三个模型都继续推荐经济扩张，完全无视军事威胁。

这并非模型生成能力的失败，而是其底层架构无法支持因果推理的失败。这些公司自身也意识到了这一点。OpenAI已发表关于“过程奖励模型”和“自我对弈”以改进推理的研究，但这些仍聚焦于文本任务（如数学题）。Anthropic探索了“宪法AI”用于对齐，

时间归档

延伸阅读

常见问题

这次模型发布“Age of Empires II Exposes the Hollow Core of LLM Anthropomorphism”的核心内容是什么？

The AI industry is engaged in a dangerous self-hypnosis, using terms like 'reasoning,' 'creativity,' and 'empathy' to describe large language models as if they possess the full spe…

从“Why LLMs fail at real-time strategy games”看，这个模型发布为什么重要？

The failure of LLMs in Age of Empires II is not a quirk of game design but a direct consequence of their architectural limitations. At their core, current LLMs are next-token prediction engines, trained on vast corpora o…

围绕“Age of Empires II as an AI benchmark”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。