LLM以每秒一条指令的速度运行6502模拟器:一场关于AI极限的哲学测试

Hacker News May 2026
来源:Hacker NewsLLM归档:May 2026
一位开发者用纯Markdown编写了一个6502 CPU模拟器,并将其放入大语言模型中执行。结果如何?慢如蜗牛的每秒一条指令。这个看似荒诞的概念验证,实则是对LLM指令遵循与状态保持能力的极限压力测试,暴露了AI概率本质与经典计算确定性效率之间的根本鸿沟。

在一项既古怪又发人深省的实验中,一位开发者仅使用Markdown语法构建了一个功能完整的6502 CPU模拟器,然后将其输入大语言模型(LLM)执行。该模拟器模拟了曾驱动Apple II和Commodore 64的经典8位处理器,运行速度仅为每秒一条指令——比原始硬件慢了大约1000万倍。该项目以“markdown-6502”为名托管在GitHub上,已获得超过2000颗星,并引发了关于计算本质与AI能力的激烈辩论。其核心在于,实验迫使LLM将Markdown视为指令集,逐行解析并执行机器码,同时在数千个token的上下文中精确维护CPU状态。这对模型的注意力机制和上下文窗口提出了极端要求:任何微小的状态漂移都会导致整个计算链条崩溃。该项目不仅是对LLM能力的嘲讽式测试,更深刻揭示了当前AI系统在处理确定性、顺序性任务时的结构性缺陷。

技术深度解析

托管在GitHub上的6502模拟器项目“markdown-6502”,是受限工程学的一项奇迹。开发者将6502的完整指令集——涵盖算术、逻辑、分支和内存操作的151个操作码——翻译成了Markdown表格和代码块。每条指令在表格中表示为一行,包含操作码、寻址模式、周期数和描述等列。LLM被提示“执行”该模拟器:读取当前程序计数器,在Markdown表格中查找对应指令,然后更新对话上下文中以JSON结构表示的虚拟状态。

核心挑战在于状态管理。LLM必须在数百或数千次推理步骤中保持6502内部状态的一致性。这包括:
- 寄存器:累加器(A)、X、Y、堆栈指针(SP)、程序计数器(PC)以及包含7个标志位的状态寄存器(P)。
- 内存:64KB可寻址RAM,但模拟器使用压缩表示以适配上下文窗口。
- 时钟周期:每条指令消耗可变数量的周期(2-7个),LLM必须跟踪这些周期。

开发者指出,模型(GPT-4o)在大约50条指令后会出现状态漂移,寄存器值因注意力错误而微妙偏移。为缓解此问题,他们每10条指令引入一个“状态检查点”,强制模型重新验证所有值。这使错误率从12%降至3%以下,但将本已缓慢的执行速度再减半。

性能数据

| 指标 | 值 |
|---|---|
| 每秒指令数 | 1.0 |
| 每条指令平均延迟 | ~1.2秒 |
| 每100条指令的上下文窗口使用量 | ~8,000个token |
| 错误率(无检查点) | 每100条指令12% |
| 错误率(有检查点) | 每100条指令2.8% |
| 最大可靠指令序列 | 约500条(之后上下文退化) |

数据要点:无检查点时的错误率对任何实际计算而言都是灾难性的——12%意味着一个简单的10指令循环在第一次迭代时就有大约72%的概率失败。检查点提高了可靠性,但代价是50%的速度惩罚,使该系统从根本上不适合确定性任务。

该实验还揭示了注意力机制的物理极限。6502的状态需要跟踪18个离散变量(寄存器+标志位)以及内存快照。随着对话增长,模型的注意力变得分散,导致“遗忘”更新。这是Transformer二次注意力复杂度的直接后果——模型无法在长序列中高效关注所有先前的状态变化。

关键参与者与案例研究

该实验由一位化名“emul8or”的独立开发者进行,他此前曾涉足各种异类计算项目,包括用SQL编写的Game Boy模拟器和用Excel实现的神经网络。该项目在GitHub和技术论坛上被广泛讨论,DeepMind和OpenAI的研究人员也贡献了重要分析,探讨其对“上下文学习”的启示。

与其他LLM作为计算机的实验对比

| 项目 | 描述 | 性能 | GitHub星数 |
|---|---|---|---|
| markdown-6502 | 用Markdown实现的6502模拟器 | 1 IPS | 2,100 |
| llm-cpu | LLM执行类汇编指令 | 5 IPS | 850 |
| gpt-computer | LLM控制虚拟机 | 0.5 IPS | 1,400 |
| neural-turing-machine | 可微分神经计算机 | 不适用(需训练) | 3,200 |

数据要点:markdown-6502项目是LLM类CPU模拟器中性能最高的,但所有项目都面临相同的基本瓶颈:低于10 IPS的速度。神经图灵机方法虽然更优雅,但需要大量训练,且无法在现有LLM上运行。

该实验也招致了硬件工程师的批评,他们认为这歪曲了计算的本质。“LLM执行指令不是计算——它是在角色扮演计算,”AMD一位高级工程师在技术博客中写道。“当你需要确定性输出时,LLM就会失败。这就像让诗人计算平方根。”

行业影响与市场动态

虽然6502模拟器只是一个新奇事物,但它属于更广泛的“LLM作为通用模拟器”趋势的一部分。Anthropic和Google DeepMind等公司正在积极研究“上下文学习”,即模型无需微调即可适应新任务。6502实验正是这种能力的极端案例。

市场影响

| 领域 | 潜在应用 | 可行性(1-10) | 上市时间 |
|---|---|---|---|
| 生物模拟 | 利用LLM推理模拟蛋白质折叠 | 3 | 5-10年 |
| 经济建模 | 基于LLM的智能体模拟市场动态 | 6 | 2-3年 |
| 遗留软件模拟 | 通过LLM运行旧软件 | 1 | 不适用 |

更多来自 Hacker News

从代码到宪法:智能体设计模式革命重塑软件工程一份面向开发者的智能体AI设计模式综合指南的发布,标志着软件工程领域的一次根本性范式转变。AINews分析揭示,核心变化并非简单地将AI添加到现有系统中,而是彻底重新思考应用程序的构建方式。传统软件依赖确定性逻辑——如果A则B——而智能体模零成本CLI工具让AI Agent绕过B站API,平台数据控制权面临挑战一场AI Agent与内容平台交互方式的范式转变正在上演。一款新发布的开源工具允许任何基于大语言模型的智能体通过简单的CLI命令直接控制中国领先视频平台Bilibili——完全无需调用B站官方API。该工具将复杂的无头浏览器自动化(通常需要为什么GPT总选42?大语言模型随机性背后的隐藏偏见一项简单实验揭示了大语言模型的一个根本性怪癖:当被要求生成1到100之间的随机整数时,GPT-4o和Claude 3.5等模型产生的分布高度不均匀,严重偏向42、37和73等数字。AINews分析表明,这种行为并非缺陷,而是LLM从人类生成查看来源专题页Hacker News 已收录 3915 篇文章

相关专题

LLM35 篇相关文章

时间归档

May 20262737 篇已发布文章

延伸阅读

IA-SQL:把PostgreSQL变成会思考的维基百科,数据库即知识引擎IA-SQL是一个开源项目,它利用大语言模型将非结构化文档自动编译成可查询的、类似维基百科的关系型数据表,从而把PostgreSQL转变为一个智能知识库。它省去了手动标注或复杂的ETL流程,让你能用自然语言直接查询结构化数据。Bateschess:当Stockfish教会大模型像引擎一样计算棋局AINews独家揭秘Bateschess——一个将Stockfish国际象棋引擎与大型语言模型深度融合的创新平台。它通过向LLM的上下文窗口注入精确的数值评估向量,实现了引擎级准确度与自然语境化评论的完美结合。AI科学家觉醒:大语言模型现已完成完整科学发现周期一项里程碑式研究揭示,大语言模型能够自主完成从假设生成、实验设计、数据分析到结论撰写的整个科学发现流程。这标志着AI从工具向全面研究伙伴的转变,有望将药物与材料发现的时间从数年压缩至数月。Kure:当LLM接管Kubernetes排障,被动告警如何进化为智能诊断一款名为Kure的开源工具,将大语言模型直接嵌入Kubernetes Pod故障排查流程。它能实时捕获Pod异常,将晦涩的日志转化为通俗易懂的自然语言解释,帮助工程师更快定位根因。这标志着可观测性正从被动告警向智能、AI驱动的诊断范式跃迁。

常见问题

这次模型发布“LLM Runs 6502 Emulator at One Instruction Per Second: A Philosophical Test of AI's Limits”的核心内容是什么?

In a bizarre yet illuminating experiment, a developer constructed a functional 6502 CPU emulator using only Markdown syntax and then fed it into a large language model (LLM) to exe…

从“Can an LLM run a CPU emulator?”看,这个模型发布为什么重要?

The 6502 emulator, hosted on GitHub as 'markdown-6502', is a marvel of constrained engineering. The developer translated the 6502's full instruction set—151 opcodes covering arithmetic, logic, branching, and memory opera…

围绕“Why is LLM CPU emulation so slow?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。