NetHack学习环境：AI攻克稀疏奖励的终极地牢挑战

2026年6月10日 09:42 AINews GitHub June 2026

⭐ 983

Facebook AI Research 发布 NetHack 学习环境（NLE），将这款以高难度著称的 Roguelike 游戏转化为通用 AI 的标准化测试平台。NLE 以稀疏奖励、部分可观测性和长周期规划为挑战，为推进多智能体系统与课程学习提供了独特的沙盒环境。

NetHack 学习环境（NLE）由 Facebook AI Research（FAIR）开发，是一个全新的强化学习基准测试平台，基于经典的程序生成 Roguelike 游戏 NetHack。与传统 RL 环境（如 Atari 游戏或 MuJoCo）提供密集、频繁的奖励不同，NetHack 提出了极端挑战：稀疏奖励、庞大的动作空间、部分可观测性以及长期规划需求。智能体必须在地牢中导航、管理资源、避开陷阱并击败怪物，通常只有在到达新地牢层或达成罕见里程碑时才能获得奖励。NLE 通过提供兼容 Gym 的接口、多种观测空间（包括原始屏幕字符、内部游戏状态和文本描述）来标准化这种复杂性，并支持多智能体场景与课程学习框架，使研究者能够系统性地测试算法在泛化与探索方面的极限。

技术深度解析

NetHack 学习环境（NLE）不仅仅是对经典游戏的封装，它是一个精心设计的基准测试，旨在以更简单环境无法做到的方式对强化学习算法进行压力测试。其核心基于 NetHack 3.6.6 源代码，通过兼容 Gym 的 API 暴露了丰富的观测和动作集。

观测空间： NLE 提供多个观测通道，每个通道捕捉游戏状态的不同方面。最常用的是 `screen` 观测，它是一个二维字符数组，代表当前地牢视图（例如 `@` 表示玩家，`#` 表示墙壁，`d` 表示矮人）。这是一种类似像素的表示，但采用符号形式。此外，`blstats` 观测提供包含 25 个内部游戏统计数据的向量，包括生命值、经验等级、地牢深度、金币和饥饿状态。`tty_chars` 观测提供原始终端输出，而 `glyphs` 和 `chars` 提供替代编码。这种多模态观测空间允许研究人员尝试不同的输入表示，从原始符号网格到学习到的嵌入。

动作空间： NetHack 的动作空间极其庞大——超过 100 种可能动作，包括移动（8 个方向）、战斗（踢、挥舞、发射）、库存管理（拾取、丢弃、吃、阅读）和施法。这远超 Atari（例如 Pong 的 18 种）或 MuJoCo（连续、低维）中典型的离散动作空间。动作的巨大规模和上下文依赖性使得朴素探索几乎不可能。

奖励设计： 默认奖励是稀疏的：智能体到达新地牢层（下楼梯）时获得 +1 奖励，死亡时获得 -1 奖励。这是与密集奖励环境的关键区别。FAIR 提供了可定制的奖励包装器，允许研究人员根据经验获取、金币收集或怪物击杀来塑造奖励。然而，默认的稀疏奖励故意设置得极具挑战性，以迫使算法发展内在动机和探索策略。

程序生成： 每局 NetHack 都是独一无二的。地牢布局、怪物放置、物品位置甚至游戏规则（例如哪些神祇存在）都是程序生成的。这确保了智能体无法记忆固定路径；它们必须进行泛化。这是测试泛化能力的关键特性，而泛化能力是许多 RL 算法的已知弱点，它们容易过拟合特定环境。

多智能体与课程学习： NLE 通过共享环境包装器支持多智能体场景，从而促进对协作或竞争智能体的研究。更重要的是，它包含一个名为 `nle_curriculum` 的课程学习框架，允许研究人员从较简单的任务（例如固定地牢种子、降低怪物密度）开始训练智能体，并逐步增加难度。这模仿了人类学习过程，并已被证明能提高样本效率。

性能基准测试： 下表总结了关键基线算法在标准 NLE 任务（在固定步数内尽可能多地下降层数）上的表现：

| 算法 | 平均下降层数 | 每回合步数 | 训练时间（GPU 小时） | 探索策略 |
|---|---|---|---|---|
| 随机智能体 | 0.1 | 1,000 | N/A | 无 |
| A2C (CNN) | 0.8 | 10,000 | 24 | 熵奖励 |
| IMPALA (CNN+LSTM) | 1.5 | 10,000 | 48 | 内在奖励 (RND) |
| DQN (CNN+DRQN) | 0.6 | 10,000 | 36 | Epsilon-贪婪 |
| PPO (CNN+Transformer) | 2.1 | 10,000 | 72 | 好奇心驱动 (ICM) |
| R2D2 (LSTM+优先回放) | 2.8 | 10,000 | 96 | 噪声网络 |

数据要点： 该表显示，即使是最先进的算法平均也只能下降 2-3 层，凸显了 NLE 的极端难度。记忆增强架构（LSTM、Transformer）优于纯前馈模型，而探索奖励（RND、ICM）提供了显著提升。表现最好的基线 R2D2 也仅达到 2.8 层，这表明需要新的算法突破。

相关 GitHub 仓库：
- `facebookresearch/nle` (⭐983 每日 +0)：官方 NLE 仓库。包含环境、基线和课程学习工具。
- `facebookresearch/droidlet` (⭐1.2k)：FAIR 的另一个具身 AI 相关项目，与 NLE 共享设计原则。
- `openai/neural-mmo` (⭐1.8k)：一个类似的大规模多智能体环境，启发了 NLE 的部分设计选择。

关键参与者与案例研究

Facebook AI Research (FAIR)： FAIR 是 NLE 的主要开发者，由 Heinrich Küttler、Nantas Nardelli 和 Alexander H. Miller 等研究人员领导。FAIR 在发布有影响力的开源 RL 环境方面有着良好记录，例如 TorchCraft（星际争霸）和 ELF（迷你即时战略）平台。NLE 代表了向测试泛化能力和长期规划的环境的战略转变，这些领域

常见问题

GitHub 热点“NetHack Learning Environment: AI's Ultimate Dungeon Crawl for Sparse Reward Mastery”主要讲了什么？

The NetHack Learning Environment (NLE), developed by Facebook AI Research (FAIR), is a new reinforcement learning benchmark that leverages the classic, procedurally generated rogue…

这个 GitHub 项目在“NetHack Learning Environment vs Procgen benchmark comparison”上为什么会引发关注？

The NetHack Learning Environment (NLE) is not merely a wrapper around a classic game; it is a carefully engineered benchmark designed to stress-test reinforcement learning algorithms in ways that simpler environments can…

从“How to install and run NLE on Windows”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 983，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。

NetHack学习环境：AI攻克稀疏奖励的终极地牢挑战

技术深度解析

关键参与者与案例研究

更多来自 GitHub

时间归档

延伸阅读

常见问题