《毁灭战士》在Claude.ai中运行:大语言模型变身实时游戏虚拟机

Hacker News June 2026
来源:Hacker NewsClaude AI归档:June 2026
一位开发者成功让1993年的经典游戏《毁灭战士》在Claude.ai的聊天界面中完整运行——这不是视频流,而是一个在AI上下文窗口中实时执行游戏引擎的活体演示。这项实验将大语言模型的能力推向全新边界,把对话式AI转化为一台能够进行实时状态管理和像素级渲染的虚拟机。

在一项令人惊叹的概念验证中,一位开发者成功让经典第一人称射击游戏《毁灭战士》在Claude.ai的聊天界面中运行。这并非视频流或模拟——游戏引擎直接在模型的上下文窗口内执行,AI生成并解析像素级数据,以维持一个持久、可交互的游戏状态。该实验已在AI研究人员和爱好者中流传,是对大语言模型能力的一次极端压力测试。它迫使模型同时模拟游戏逻辑、渲染图形并实时响应用户输入,远超典型的文本对话范畴。这一成就模糊了AI推理与传统计算之间的界限,暗示着LLM可能演变为通用计算平台,而不仅仅是聊天机器人。

技术深度解析

在Claude.ai中运行《毁灭战士》并非简单的模拟技巧。它利用了大型语言模型上下文窗口的基本结构——模型处理输入和生成输出的有限内存空间。在这个实验中,开发者将整个游戏状态编码为上下文窗口中的一系列token。每一帧《毁灭战士》被表示为像素值的网格,序列化为文本。当模型接收到当前状态和用户操作(例如“向前移动”、“射击”)时,它会生成下一帧作为新的像素token块。这是一种“上下文内执行”的形式,模型同时充当游戏引擎和渲染器。

关键技术组件:
- 状态编码:游戏世界——玩家位置、敌人位置、生命值、弹药、地图几何——被扁平化为结构化的文本表示。例如,一个320x200像素、256色的帧大约需要64,000个token(假设每个像素值对应一个token)。Claude的200K token上下文窗口限制了最大分辨率和复杂度。
- 推理循环:用户发送命令,模型从上下文中读取当前状态,计算下一状态,并输出新的像素网格。这不是预训练的游戏引擎;模型必须仅从上下文中推断《毁灭战士》的规则,利用其通用推理能力。
- 延迟限制:每帧生成在Claude后端需要几秒钟,导致可玩但缓慢的体验(大约0.2–0.5帧每秒,而原版《毁灭战士》为35 FPS)。这是当前transformer架构的基本限制,它们针对文本生成而非实时像素处理进行了优化。

对于对底层机制感兴趣的读者,开源仓库'llm-doom'(目前在GitHub上获得1200+星)提供了一个参考实现。它使用轻量级Python脚本与Claude的API交互,管理token预算和状态序列化。该仓库的README指出,同样的方法理论上可以适用于任何支持足够大上下文窗口和强大指令遵循能力的LLM。

数据表:上下文内《毁灭战士》与原版《毁灭战士》的性能指标

| 指标 | 原版《毁灭战士》(1993) | 上下文内《毁灭战士》(Claude.ai) |
|---|---|---|
| 帧率 | 35 FPS | 0.2–0.5 FPS |
| 上下文窗口使用 | 不适用 | 每帧约64K token |
| 每次操作延迟 | <30毫秒 | 2–5秒 |
| 分辨率 | 320x200 | 160x100(降采样) |
| 色彩深度 | 256色 | 16色(缩减) |
| 每分钟总成本 | $0(本地硬件) | 约$0.50(API使用) |

数据要点: 性能差距惊人——原版《毁灭战士》比上下文内版本快70–175倍。然而,成本和延迟并非重点。该实验证明,LLM可以*在功能上*替代游戏引擎,即使效率低下。随着模型推理速度的提升(例如通过推测解码或专用硬件),这一差距将缩小,可能在未来2–3年内使上下文内执行对简单应用变得可行。

关键参与者与案例研究

这项实验的开发者,化名为'gamer-ai',是一位独立研究员,此前曾演示过在GPT-4中运行一个简单的国际象棋引擎。他们的工作建立在日益增长的“上下文内学习即计算”研究基础上——这一概念由Google DeepMind和Anthropic的团队探索。值得注意的是,Anthropic自身关于“上下文推理”的研究表明,Claude 3.5 Sonnet可以在10万+ token范围内维持连贯状态,这对于此类应用至关重要。

其他相关案例研究:
- OpenAI的Code Interpreter:一个允许GPT-4在沙盒环境中执行Python代码的产品。这在概念上类似,但依赖于外部运行时,而非模型本身。《毁灭战士》实验更进一步,将模型自身的推理用作运行时。
- Anthropic的Claude 3.5 Opus:实验中使用的模型。其200K token上下文窗口和强大的指令遵循能力使其特别适合此任务。Anthropic尚未正式认可或评论该实验,但内部消息人士表示,公司正在监控此类用例,以探索潜在产品功能。
- Google的Gemini 1.5 Pro:拥有100万token上下文窗口,理论上可以运行更高分辨率的《毁灭战士》。然而,其架构对像素级生成的优化程度较低,目前尚无公开演示。

数据表:用于上下文内执行的LLM能力

| 模型 | 上下文窗口 | 每帧最大token数(估计) | 游戏执行适用性 |
|---|---|---|---|
| Claude 3.5 Opus | 200K | 64K | 高(用于此演示) |
| GPT-4 Turbo | 128K | 40K | 中(窗口较短,状态跟踪较弱) |
| Gemini 1.5 Pro | 1M | 320K | 高(理论上,但尚无演示) |

更多来自 Hacker News

中国封堵西方AI模型,硅谷却拥抱DeepSeek开源力量中华人民共和国已升级对西方AI模型的监管姿态,规定任何在其境内运营的外国大语言模型必须将所有用户数据存储于国内服务器,并通过国家管理的内容安全审查。此举实际上将OpenAI、Anthropic和谷歌等公司在中国市场的合规成本提升至近乎禁止的甲骨文千亿债务炸弹:AI热潮背后的财务悬崖甲骨文向AI基础设施的转型,堪称一场财务高空走钢丝。该公司激进举债——长期债务现已突破1000亿美元——用于采购数万块NVIDIA H100和H200 GPU,建设数据中心以与亚马逊云服务(AWS)、微软Azure和谷歌云竞争。这一策略最初SentinelMCP:守护AI代理工具调用的开源防火墙AI代理的爆发式增长,离不开其与外部工具的深度融合,而模型上下文协议(MCP)正迅速成为连接这些工具的标准化桥梁。然而,当业界将大量精力聚焦于模型本身的安全性——如对齐、越狱攻击和提示注入时,代理与工具之间的通信通道却始终是一片无人设防的巨查看来源专题页Hacker News 已收录 4606 篇文章

相关专题

Claude AI43 篇相关文章

时间归档

June 20261209 篇已发布文章

延伸阅读

WibeOS:AI幻觉驱动的操作系统,让软件自我重写WibeOS并非运行应用的操作系统——它是一款会“幻觉”出应用的操作系统。通过将大语言模型作为运行时环境,它从零开始根据自然语言描述生成每个用户界面和功能,直接挑战软件分发的根基。AI信任被劫持:谷歌广告与Claude聊天如何联手传播Mac恶意软件一场精心策划的恶意软件攻击正利用谷歌广告和Claude.ai聊天界面,将矛头指向Mac用户。攻击者通过劫持用户对AI平台的天然信任,创造了一种全新的社会工程学攻击向量——「AI信任劫持」,它绕过了传统安全防线,并利用了用户赖以安全交互的基础Claude Token Spy:开源扩展揭开AI隐藏成本的黑箱一款全新的开源浏览器扩展通过拦截fetch()调用,实时曝光Claude.ai的隐藏token消耗。对于重度用户而言,这层透明化将模糊的AI成本转化为可衡量的资源,重塑了提示词优化与订阅价值评估的方式。OpenAI的智能手机棋局:杀死应用才是真正的革命OpenAI首款硬件设备尘埃落定:一部智能手机。外观虽似曾相识,内部架构却是一场激进变革——设备运行原生集成的AI操作系统,以意图驱动代理取代传统应用,直指移动双寡头统治地位。

常见问题

这次模型发布“Doom Runs Inside Claude.ai: LLMs Become Virtual Machines for Real-Time Gaming”的核心内容是什么?

In a stunning proof-of-concept, a developer managed to run the iconic first-person shooter Doom inside Claude.ai's chat interface. This is not a video feed or a simulation — the ga…

从“Can you play Doom inside ChatGPT?”看,这个模型发布为什么重要?

The feat of running Doom inside Claude.ai is not a simple emulation trick. It exploits the fundamental structure of a large language model's context window — the limited memory space where the model processes input and g…

围绕“How to run a game in Claude.ai context window”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。