NetHack 星标突破 3776：经典 Roguelike 如何成为 AI 基准测试与游戏开发的新文艺复兴

2026年6月10日 09:41 AINews GitHub June 2026

⭐ 3776📈 +225

NetHack 官方 Git 仓库星标数飙升至 3776，这款诞生于 1987 年的经典 Roguelike 游戏正迎来复兴。AINews 深入解析：为何这款老游戏成为 AI 基准测试的关键工具、程序化生成的教科书，以及游戏开发智慧的活态档案。

在 GitHub 上以 nethack/nethack 为标识的 NetHack 官方 Git 仓库，近期人气飙升，单日新增 225 个星标，总数达到 3776。这一激增并非随机异常，而是深层趋势的征兆：NetHack 正被重新发现为人工智能研究和游戏开发教育中独一无二、极具挑战性的宝贵环境。NetHack 于 1987 年首次发布，是典型的 Roguelike 游戏——一款以极端复杂性、程序化生成和残酷永久死亡为特征的回合制地牢探险游戏。其代码库主要用 C 语言编写，是一个庞大、历经数十年演变的单体结构，由专注的开源社区精心维护。仓库星标的近期增长直接与 AI 研究社区对 NetHack 作为基准测试的重新关注、以及游戏开发者对其代码遗产的学习热情相关。

技术深度解析

NetHack 的代码库是程序化内容生成（PCG）和复杂状态管理的教科书级范例，以约 15 万行 C 代码实现。核心架构围绕一个地牢生成引擎构建，该引擎使用递归细分算法创建房间和走廊，然后根据来自庞大数据表的加权随机选择，用怪物、物品和陷阱填充它们。游戏状态表示为一个全局结构，包含地牢层级、玩家背包、怪物位置以及待处理事件的时间线。这种单体设计虽然不现代，但对于游戏的回合制、单线程特性而言非常高效。

NetHack 对 AI 研究特别有趣的地方在于其观察空间。与 Atari 游戏不同（屏幕像素提供完整视图），NetHack 的界面纯粹是文本形式。AI 代理必须解析描述环境的文本流，这使其成为一个自然语言接地问题。动作空间也极其庞大：玩家可以与背包中的任何对象交互、使用工具、施法、向神祈祷，甚至将物品浸入喷泉。这导致了远超强化学习代理通常处理能力的组合爆炸式可能动作。

仓库本身对开发者来说是宝贵的资源。`src/` 目录包含主要游戏逻辑，文件如 `dungeon.c`（地牢生成）、`monst.c`（怪物行为）和 `spell.c`（魔法系统）。`include/` 目录保存定义游戏数据结构的头文件。对于对 AI 集成感兴趣的人，`util/` 目录包含诸如 `makedefs` 之类的工具，用于从数据文件生成常量定义。社区还开发了一个 NetHack Learning Environment (NLE) 封装器，它不在本仓库中，而是一个独立项目，将游戏暴露为用于强化学习的 Gymnasium 环境。NLE 在将 NetHack 标准化为基准测试方面发挥了关键作用。

数据表：NetHack 与其他 AI 游戏基准测试对比

| 基准测试 | 状态空间大小 | 动作空间大小 | 典型代理得分 | 关键挑战 |
|---|---|---|---|---|
| 国际象棋 (AlphaZero) | ~10^47 | ~35 | 超人类 | 完美信息，确定性 |
| 围棋 (AlphaGo) | ~10^170 | ~250 | 超人类 | 完美信息，高分支因子 |
| Atari 2600 (DQN) | ~10^7 (像素) | ~18 | 人类水平（部分游戏） | 部分可观测性，简单机制 |
| 星际争霸 II (AlphaStar) | ~10^26 | ~10^3 | 宗师级 | 部分可观测性，实时，多智能体 |
| NetHack (NLE) | ~10^1000+ (估计) | ~10^4 (上下文相关) | 人类专家的约 1% | 部分可观测性，长期规划，稀有事件，物品交互 |

数据要点： NetHack 的状态空间比任何其他标准基准测试大数个数量级，其动作空间高度上下文相关。这使其成为当前 AI 的一个独特难题，但也是比具有更简单动态的游戏更现实的通用智能测试。

关键参与者与案例研究

仓库背后的主要实体是 NetHack DevTeam，一个非正式的志愿者维护者小组，几十年来一直守护着代码库。关键人物包括 Pat Rankin（在早期代码结构中发挥关键作用）和现任维护者 Pasi Kallinen（负责 Git 仓库和发布流程）。该团队以对向后兼容性和社区意见的坚定承诺运作，这解释了代码库的稳定性。

在 AI 研究方面，由 NeurIPS 会议组织的 NetHack Challenge 是近期兴趣的主要驱动力。该挑战吸引了来自主要研究实验室的团队，包括 DeepMind、OpenAI 和 Facebook AI Research (FAIR)。DeepMind 在 NetHack Learning Environment (NLE) 上的工作尤其值得注意。他们在 2021 年发表了一篇论文，显示一个标准的 PPO 代理几乎无法升到第 10 层，而人类专家可以在几小时内到达终局（星界位面）。这种巨大的性能差距激发了新架构，例如使用 Transformer 模型处理基于文本的观察和长期记忆。

另一个关键参与者是围绕 NLE 的开源社区。仓库 `facebookresearch/nle` 拥有超过 1200 个星标，提供了 NetHack 的 Python 接口，以及基线代理和任务规范。这降低了入门门槛，使较小的实验室和独立研究人员能够试验该基准测试。

数据表：NetHack Challenge 参与度与表现

| 年份 | 挑战赛 | 团队数量 | 顶级代理得分（平均飞升层数） | 人类专家得分 |
|---|---|---|---|---|
| 2021 | NeurIPS NetHack Challenge | 15 | 3.2 | 30+ |
| 2022 | NeurIPS NetHack Challenge | 22 | 5.1 | 30+ |
| 2023 | NeurIPS NetHack Challenge | 30 | 7.8 | 30+ |
| 2024 | NeurIPS NetHack Challenge (进行中) | 35+ | 9.2 (初步) | 30+ |

常见问题

GitHub 热点“NetHack's 3,776 Stars Signal a Renaissance for AI Benchmarking and Game Dev”主要讲了什么？

The official NetHack Git repository, hosted on GitHub under the handle nethack/nethack, has seen a remarkable surge in popularity, gaining 225 stars in a single day to reach a tota…

这个 GitHub 项目在“NetHack GitHub repository star history and growth analysis”上为什么会引发关注？

NetHack's codebase is a masterclass in procedural content generation (PCG) and complex state management, implemented in approximately 150,000 lines of C. The core architecture is built around a dungeon generation engine…

从“How to use NetHack codebase for learning procedural generation”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 3776，近一日增长约为 225，这说明它在开源社区具有较强讨论度和扩散能力。

NetHack 星标突破 3776：经典 Roguelike 如何成为 AI 基准测试与游戏开发的新文艺复兴

技术深度解析

关键参与者与案例研究

更多来自 GitHub

时间归档

延伸阅读

常见问题