LLM以每秒一条指令的速度运行6502模拟器：一场关于AI极限的哲学测试

2026年5月25日 19:37 AINews Hacker News May 2026

来源：Hacker News LLM 归档：May 2026

一位开发者用纯Markdown编写了一个6502 CPU模拟器，并将其放入大语言模型中执行。结果如何？慢如蜗牛的每秒一条指令。这个看似荒诞的概念验证，实则是对LLM指令遵循与状态保持能力的极限压力测试，暴露了AI概率本质与经典计算确定性效率之间的根本鸿沟。

在一项既古怪又发人深省的实验中，一位开发者仅使用Markdown语法构建了一个功能完整的6502 CPU模拟器，然后将其输入大语言模型（LLM）执行。该模拟器模拟了曾驱动Apple II和Commodore 64的经典8位处理器，运行速度仅为每秒一条指令——比原始硬件慢了大约1000万倍。该项目以“markdown-6502”为名托管在GitHub上，已获得超过2000颗星，并引发了关于计算本质与AI能力的激烈辩论。其核心在于，实验迫使LLM将Markdown视为指令集，逐行解析并执行机器码，同时在数千个token的上下文中精确维护CPU状态。这对模型的注意力机制和上下文窗口提出了极端要求：任何微小的状态漂移都会导致整个计算链条崩溃。该项目不仅是对LLM能力的嘲讽式测试，更深刻揭示了当前AI系统在处理确定性、顺序性任务时的结构性缺陷。

技术深度解析

托管在GitHub上的6502模拟器项目“markdown-6502”，是受限工程学的一项奇迹。开发者将6502的完整指令集——涵盖算术、逻辑、分支和内存操作的151个操作码——翻译成了Markdown表格和代码块。每条指令在表格中表示为一行，包含操作码、寻址模式、周期数和描述等列。LLM被提示“执行”该模拟器：读取当前程序计数器，在Markdown表格中查找对应指令，然后更新对话上下文中以JSON结构表示的虚拟状态。

核心挑战在于状态管理。LLM必须在数百或数千次推理步骤中保持6502内部状态的一致性。这包括：
- 寄存器：累加器（A）、X、Y、堆栈指针（SP）、程序计数器（PC）以及包含7个标志位的状态寄存器（P）。
- 内存：64KB可寻址RAM，但模拟器使用压缩表示以适配上下文窗口。
- 时钟周期：每条指令消耗可变数量的周期（2-7个），LLM必须跟踪这些周期。

开发者指出，模型（GPT-4o）在大约50条指令后会出现状态漂移，寄存器值因注意力错误而微妙偏移。为缓解此问题，他们每10条指令引入一个“状态检查点”，强制模型重新验证所有值。这使错误率从12%降至3%以下，但将本已缓慢的执行速度再减半。

性能数据：

| 指标 | 值 |
|---|---|
| 每秒指令数 | 1.0 |
| 每条指令平均延迟 | ~1.2秒 |
| 每100条指令的上下文窗口使用量 | ~8,000个token |
| 错误率（无检查点） | 每100条指令12% |
| 错误率（有检查点） | 每100条指令2.8% |
| 最大可靠指令序列 | 约500条（之后上下文退化） |

数据要点：无检查点时的错误率对任何实际计算而言都是灾难性的——12%意味着一个简单的10指令循环在第一次迭代时就有大约72%的概率失败。检查点提高了可靠性，但代价是50%的速度惩罚，使该系统从根本上不适合确定性任务。

该实验还揭示了注意力机制的物理极限。6502的状态需要跟踪18个离散变量（寄存器+标志位）以及内存快照。随着对话增长，模型的注意力变得分散，导致“遗忘”更新。这是Transformer二次注意力复杂度的直接后果——模型无法在长序列中高效关注所有先前的状态变化。

关键参与者与案例研究

该实验由一位化名“emul8or”的独立开发者进行，他此前曾涉足各种异类计算项目，包括用SQL编写的Game Boy模拟器和用Excel实现的神经网络。该项目在GitHub和技术论坛上被广泛讨论，DeepMind和OpenAI的研究人员也贡献了重要分析，探讨其对“上下文学习”的启示。

与其他LLM作为计算机的实验对比：

| 项目 | 描述 | 性能 | GitHub星数 |
|---|---|---|---|
| markdown-6502 | 用Markdown实现的6502模拟器 | 1 IPS | 2,100 |
| llm-cpu | LLM执行类汇编指令 | 5 IPS | 850 |
| gpt-computer | LLM控制虚拟机 | 0.5 IPS | 1,400 |
| neural-turing-machine | 可微分神经计算机 | 不适用（需训练） | 3,200 |

数据要点：markdown-6502项目是LLM类CPU模拟器中性能最高的，但所有项目都面临相同的基本瓶颈：低于10 IPS的速度。神经图灵机方法虽然更优雅，但需要大量训练，且无法在现有LLM上运行。

该实验也招致了硬件工程师的批评，他们认为这歪曲了计算的本质。“LLM执行指令不是计算——它是在角色扮演计算，”AMD一位高级工程师在技术博客中写道。“当你需要确定性输出时，LLM就会失败。这就像让诗人计算平方根。”

行业影响与市场动态

虽然6502模拟器只是一个新奇事物，但它属于更广泛的“LLM作为通用模拟器”趋势的一部分。Anthropic和Google DeepMind等公司正在积极研究“上下文学习”，即模型无需微调即可适应新任务。6502实验正是这种能力的极端案例。

市场影响：

| 领域 | 潜在应用 | 可行性（1-10） | 上市时间 |
|---|---|---|---|
| 生物模拟 | 利用LLM推理模拟蛋白质折叠 | 3 | 5-10年 |
| 经济建模 | 基于LLM的智能体模拟市场动态 | 6 | 2-3年 |
| 遗留软件模拟 | 通过LLM运行旧软件 | 1 | 不适用 |

时间归档

常见问题

这次模型发布“LLM Runs 6502 Emulator at One Instruction Per Second: A Philosophical Test of AI's Limits”的核心内容是什么？

In a bizarre yet illuminating experiment, a developer constructed a functional 6502 CPU emulator using only Markdown syntax and then fed it into a large language model (LLM) to exe…

从“Can an LLM run a CPU emulator?”看，这个模型发布为什么重要？

The 6502 emulator, hosted on GitHub as 'markdown-6502', is a marvel of constrained engineering. The developer translated the 6502's full instruction set—151 opcodes covering arithmetic, logic, branching, and memory opera…

围绕“Why is LLM CPU emulation so slow?”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

LLM以每秒一条指令的速度运行6502模拟器：一场关于AI极限的哲学测试

技术深度解析

关键参与者与案例研究

行业影响与市场动态

更多来自 Hacker News

相关专题

时间归档

延伸阅读

常见问题