技术深度解析
Zork-bench并非典型的多项选择题测试。它是一个完整的交互式环境,基于原始Zork游戏引擎构建,模拟了一个庞大的地下世界,包含房间、物品、NPC以及一个能理解有限动词-名词指令的解析器。该基准从多个维度评估LLM:指令解析、状态追踪、背包管理、空间推理、解谜能力和失败恢复。
每个模型都会获得一个目标——例如“从厨房拿到鸡蛋”——并必须发出一系列指令。游戏引擎返回文本响应(例如“你不能走那边”或“你需要先开门”)。模型必须解读这些响应,更新其内部世界模型,并相应调整计划。这与答案非对即错的静态基准有着本质区别。
初步测试揭示了一个明显的失败模式。当模型输入“go east”而引擎回复“门是关着的”时,许多顶级LLM只会重复“go east”多次,无法推断出需要先输入“open door”。这暴露了反事实推理和规划深度的缺失。模型还在背包状态上挣扎:它们常常忘记自己正拿着钥匙,却试图捡起另一件物品,或者尝试使用自己没有的道具。
从工程角度看,这一基准暴露了Transformer架构在序列决策上的局限性。Transformer在推理时是前馈式的——它们不会维护跨轮次持续存在的内部状态,除非通过上下文窗口显式管理。即使拥有长上下文窗口(例如128K tokens),模型也无法维持连贯的世界模型,因为它们将每一轮交互视为孤立的输入,而非连续叙事的一部分。
已有多个开源项目试图填补这些空白。例如,“Zork-Agent” GitHub仓库(目前1.2k星)提供了一个框架,将LLM与符号规划器和记忆模块封装在一起。另一个仓库“TextWorld”(4.5k星)提供了类似的交互式环境,但使用程序化生成的游戏。这些项目表明,将LLM与显式状态追踪和规划算法相结合,能取得远优于纯LLM推理的结果。
| 基准测试 | 类型 | 关键指标 | 顶级LLM得分 (GPT-4o) | 人类平均分 |
|---|---|---|---|---|
| MMLU | 静态问答 | 准确率 | 88.7% | ~89% |
| GSM8K | 数学应用题 | 准确率 | 92.0% | ~95% |
| Zork-bench (任务完成率) | 交互式 | 完成任务百分比 | 12% | 78% |
| Zork-bench (失败恢复率) | 交互式 | 成功重试百分比 | 8% | 85% |
数据要点: 静态基准与交互式表现之间的差距令人震惊。虽然GPT-4o在MMLU和GSM8K上接近人类水平,但它仅完成了12%的Zork任务,且失败恢复率仅为8%。这表明当前的评估指标具有误导性——模型擅长记忆答案,但在动态环境中表现极差。
关键参与者与案例研究
多个组织已在积极研究Zork-bench。OpenAI尚未正式评论,但据称内部实验显示GPT-4o在该基准上表现不佳,这重新激发了他们对基于人类反馈的强化学习(RLHF)和思维链(CoT)提示的兴趣。然而,CoT在此处并无帮助,因为模型必须与外部环境交互,而不仅仅是内部推理。
Anthropic则更为透明。其研究人员已发布初步结果,显示Claude 3.5 Sonnet尽管在安全性和对齐方面表现强劲,但在Zork-bench上同样失败。他们将其归因于缺乏“交互常识”——模型无法在闭环系统中模拟自身行为的后果。Anthropic目前正在探索Constitutional AI与一个独立规划模块的结合,该模块与语言模型并行运行。
Google DeepMind在此具有天然优势,因其在强化学习和游戏AI(如AlphaGo、AlphaStar)方面拥有深厚积累。据称他们正在将Zork-bench作为混合系统的试验场,该系统将大型语言模型与蒙特卡洛树搜索(MCTS) 规划器相结合。初步结果显示,这种混合方法实现了45%的任务完成率——虽仍远低于人类表现,但已显著优于纯LLM。
在开源领域,Meta发布了LLAMA 3模型,当与“AgentBench”框架(包含类似Zork的环境)配合使用时,任务完成率约为20%。社区还围绕“Voyager”(GitHub上20k+星)集结,这是一个使用GPT-4玩Minecraft的智能体。Voyager的架构——包含技能库、自我验证模块和课程机制——可直接应用于Zork-bench,并已启发了多个后续项目。